Soracom

Status Dashboard

Subscribe to updates

一部回線の通信不調

Minor incident Air for Cellular Others Air for LoRaWAN SORACOM LoRa Spaces Owned Gateways
2017-04-29 13:18 JST · 3 hours, 27 minutes

Updates

Post-mortem

English follows Japanese

SORACOM Air ご利用の皆様

このたびは2017年4月29日に発生したSORACOM Airの通信障害により、お客様にご迷惑をおかけしましたこと、心よりお詫び申し上げます。ここにその原因と再発防止策につきまして下記のとおりご報告いたします。

障害の概要/Overview

  • 今回の障害で影響のあったサービス: SORACOM Air for Cellular, LoRaWANの一部
  • 障害によるお客様への影響範囲: 複数ある通信用ノードのうち、特定のノードを利用していたSIMの一部通信に問題が発生。また新規接続を行った端末が接続できない状況が発生。
  • 発生日時: 2017年4月29日 12:30(JST) ※以降断続的に発生し、14:10より順次復旧
  • 復旧日時: 2017年4月29日 15:30(JST)

  • Affected Service: A significant percentage of devices using SORACOM Air for Cellular, and LoRaWAN.
  • Impacted Area: Sessions that were established for specific nodes experienced degraded connectivity. We have a pool of multiple nodes for connectivity, but multiple nodes were affected by the issue. Also, some session creation requests were rejected during the timeframe.
  • Timeframe: 2017-04-29 12:30 - 15:30 (JST)
    • Connectivity problems occurred intermittently, and were resolved as of 14:10 (JST).

原因/Root cause

このたびの障害は、通信ノードで利用している内部DNSサーバに障害が発生した際、本来自動で行われるべきサーバの入れ替えが失敗する不具合が起きたことに起因しております。また、前述のような状況においても待機系のDNSサーバを利用するよう切り替わりますが、この切り替え処理において、待機系DNSサーバへのフォールバックおよびDNSクエリの処理が想定時間内に終了しない事象が発生し、ノード間の名前解決に問題が生じる結果となりました。


This service event was caused by an internal DNS issue affecting nodes for connectivity. Normally, that kind of issue should be recovered by auto-replace functionality, but it did not work correctly in this event. Also, in such situation, a standby DNS server should automatically replace the primary server. However, the fallback process and associated DNS query processing time took longer than the expected timeframe. This behavior caused name resolution failures for some nodes.

再発防止策/Recurrence prevention

DNSサーバについては、単体障害発生時でもサーバ自身の自動置き換えが正しく行われるように自動復旧機能の不具合を修正致しました。また、問題が長期化しないよう、待機系のDNSサーバへの切り替え時処理の見直しを行いました。長期的には、各通信ノード内にDNSクエリを適切に処理するプロセスを配置し、より耐障害性を高め、より迅速な復旧を促すためにシステムの見直しを実施いたします。


We have already reconfigured our auto-recovery system for this specific failure mode. Also, we have revised our DNS server fallback process to enable recovering more quickly. For the long term, we will deploy a DNS query handling system local to each node to appropriately handle delays or failures in DNS query resolution. This will increase robustness and expedite recovery from this type of scenario for our platform.

2017-05-02 · 18:30 JST
Resolved

Air SIM for Japan の一部で発生していた通信エラーについて復旧を確認しました。現在は平常通りご利用いただけます。このたびはご迷惑をおかけし、誠に申し訳ございませんでした。

本事象の影響範囲、発生時間帯は以下のとおりです。お客様にご迷惑をおかけしましたこと、心よりお詫び申し上げます。

  • 影響範囲:一部のAir SIMの通信
  • 発生時間帯:2017-04-29 12:30 - 15:30 (JST)

Air SIM for Japan connectivity issue has been resolved and the service is operating normally. We apologize for the inconvenience.

  • Affected Service: A part of Air SIM for Japan connectivity
  • Timeframe: 2017-04-29 12:30 - 15:30 (JST)
2017-04-29 · 16:45 JST
Monitoring

Air SIM for Japan の一部で発生していた通信エラーについて復旧作業が完了しました。経過を観察し、完全に問題解消したことを確認できましたら、改めてこちらのページでお知らせします。


Air SIM for Japan connectivity issue has been resolved. We will be monitoring our networking components to ensure there will be no further issues. When our service is fully recovered, we will update this page.

2017-04-29 · 15:27 JST
Issue

一部 Air SIM for Japan の通信障害について、再び通信エラーが発生していることを確認いたしました。引き続き対応を行っております。


A part of Air SIM for Japan has connectivity issue again. We are investigating and recovering the issue.

2017-04-29 · 14:56 JST
Issue

一部Air SIMの通信障害について、現在対応を行い、順次復旧していることを確認しています。通常どおりのサービスレベルに戻るまで経過を観察し、完全な復旧が確認されたら改めてこちらのページでお知らせいたします。


We have responded to some communication problems of Air SIM and confirmed that it is recovering gradually. We observe the progress until we return to the usual service level, and we will inform you again on this page once complete recovery is confirmed.

2017-04-29 · 14:23 JST
Issue

English follows after Japanese

2017年4月29日 12:30JSTごろから一部のAir SIMで通信が一時的に不安定となる事象につきまして、現在弊社設備内の一部ノード/ネットワークに問題が発生していることを確認しており、現在根本原因の特定と復旧作業を行っております。


From April 29, 2017, 12: 30 JST, a phenomenon in which communication temporarily becomes unstable with some Air SIM has been confirmed. Currently we have confirmed that there is a problem with some nodes / networks in our facility and we are currently identifying the root cause and restoring it.

2017-04-29 · 14:02 JST
Investigating

一部回線の通信および新規通信セッションにおいて、システムの不調を検知しております。
現在原因の究明と復旧にあたっております。

2017-04-29 · 13:18 JST

← Back