Agile Cat — in the cloud

ネットワーク障害でトラフィックが欧州から香港へ:これもヒューマン・エラー!

Posted in .Selected, AI ML, Data Center Trends, Network by agilecat.cloud on August 23, 2016
Outage that rerouted European traffic to Asia blamed on ‘human error’
21 June 2016 By Michael Hurley
http://www.datacenterdynamics.com/content-tracks/security-risk/outage-that-rerouted-european-traffic-to-asia-blamed-on-human-error/96425.fullarticle
 
_ DC Dynamics
 
A major network outage affecting disparate services such as WhatsApp, Reddit, CloudFlare and AWS on Monday was apparently caused by an engineer at TeliaSonera, who misconfigured a router and accidentally sent most of Europe’s traffic to Hong Kong, the Register reports.
 
この月曜日 (6/20) に生じた、大規模なネットワークの障害により、WhatsApp/Reddit/CloudFlare/AWS といった多様なサービスに影響が生じた。それは、TeliaSonera のエンジニアが誤ってルータを設定し、Europe における大半のトラフィックを、Hong Kong ヘ向けて送信したことに原因があると、Register がレポートしている。
 
The downtime started at 12:10 UTC when, according to a blog posted on CloudFlare’s website, the Internet security and content delivery service provider detected ‘massive’ packets of data had been lost on Telia’s network.
 
このダウンタイムは、6月20日 12:10 UTC に始まったと、CloudFlare サイトのブログに掲載されている。このインターネット・セキュリティとコンテンツ配信を提供するサービス・プロバイダーは、大量のデータ・パケットが、TeliaSonera のネットワーク上で失われたことを検出している。
 
CloudFlare reported that a fix was implemented at 13:43 UTC, with the issue resolved by 14:22.
 
そして、CloudFlare は、13:43 UTC に問題への対処が実施され、UTC 14:22 に問題が解消したと述べている。
 
datacenterImage – pixabay
 
Data package
 
Data packets are units of data contained in one package so they can be transported along a network path. In this case the transit provider, Telia, appeared to have dropped packets before they reached their destination.
 
データ・パケットとは、データがネットワーク経路に沿って転送されるようにするために、一連のデータをパッケージに取り込んだ単位のことである。今回のケースでは、トランジット・プロバイダーである TeliaSonera が、ディスティネーションに到達すべきパケットを、ドロップしてしまったと推定される。
 
The Register said the issue was caused by an individual engineer redirecting European traffic to Hong Kong.
 
そして Register は、あるエンジニアが、Europe のトラフィックを Hong Kong にリダイレクトしたことにより、障害が引き起こされたと述べている。
 
During the outage, CloudFlare’s status page said the company was “observing network performance issues in some European locations.”
 
この障害が生じていたとき、CloudFlare のステータス・ページには、「いくつかのEurope のリケーションで、ネットワーク・パフォーマンスの問題が検知されている」という状況が示されていた。
 
Such was the severity of the incident that, hours after it ended, TeliaSonera sent a note to other network operators apologizing for the downtime.
 
それは、問題が FIX してから数時間も影響が残るという、深刻な事故であった。そして TeliaSonera は、このダウンタイムいついて謝罪するメモを、他のネットワーク・オペレータたちに送っていた。
 
Telia reliability questioned
 
Swedish multinational TeliaSonera is a Tier 1 network provider operating its own global fiber backbone, delivering a foundation for the exchange of Internet traffic around the world. CloudFlare uses a number of transit providers, including TeliaSonera.
 
Sweden ベースの多国籍である TeliaSonera は、自身のファイバ・バックボーンをグローバルに展開する Tier-1 ネットワーク・プロバイダーであり、世界のインターネット・トラフィックをエクスチェンジするための、基盤を提供する企業でもある。そして CloudFlare は、TeliaSonera を含む、複数のトランジット・プロバイダーを利用している。
 
In response to the downtime, CloudFlare’s chief executive officer Matthew Prince tweeted: “Reliability of Telia over last 60 days unacceptable. Deprioritizing them until we are confident they’ve fixed their systemic issues.”
 
このダウンタイムへの反応として、CloudFlare の CEO である Matthew Prince は、「この 60日間において、TeliaSonera の信頼性は受け入れられない。私たちは、同社の問題が修正されたと確信できるまで、その優先順位を下げる」とツイートしている。
 
In its blog post, TeliaSonera said it has moved towards automation of its systems to help deal with this type of incident and minimize future outages.
 
また、TeliaSonera のブログには、「それは、この種の事故が発生しないための、また、将来におけるダウンタイムを最小限に抑えるための、システムの自動化に向けた移行で生じたものだ」という発言がポストされている。
 
Meanwhile CloudFlare is already working on a mechanism that proactively detects packet loss and moves traffic away from providers experiencing an outage. This system is only currently activated in its most remote locations so did not trigger in Monday’s incident, but capability will be extended over the next fortnight to all of the company’s points-of-presence.
 
その一方で、すでに CloudFlare は、パケットロスを積極的に検出し、障害を起こしているプロバイダーからトラフィックを回避させるという、メカニズムに取り組んでいる。ただし、このシステムは、同社におけるリモート・ロケーションで、限定的に運用されるものであり、今回の事故で発動されることはなかった。同社は、これから二週間の間に、この機能を すべての PoP (points-of-presence) に拡張すると述べている。
 
AWS also reported that its services had been affected by interrupted connectivity. “Between 5:10am and 6:01am PDT an external provider outside our network experienced an issue which impacted internet connectivity between some customer networks and the EU-WEST-1 Region,” said an AWS representative. “Connectivity to instances and services in the region was not impacted by the event. The issue is resolved and the service is working normally.”
 
AWS も、今回のコネクティビティ障害の影響を受けていたと、レポートしている。AWS のスポークスマンは、「PDT 5:10〜6:01 の間で、私たちのネットワーク外のプロバイダーに障害が発生し、いくつかのカスタマ・ネットワークと、EU-WEST-1 Region で、インターネット接続に影響が生じた。ただし、この Region にあるインスタンスおよびサービスへの接続が、この障害に影響を受けることはなかった。すでに問題は解決され、サービスは正常に作動している」と述べている。
 
ーーーーー
Networkこの記事を訳していて、2011年に起こった AWS の障害のことを思い出しました。それは、O’Reilly が「Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる」というタイトルでポストした、クラウドにおける冗長性の考え方を整理するものでした。しかし、クラウド・プロバイダーの外側で起こるエラーだと、対処しようのない状況に陥ることは、いまでも変わらないのですね。そして、大半のケースにおいて、ヒューマン・エラーが原因となっているようです。この領域でも、機械学習による自動化が必須になっていくのでしょうかね? _AC Stamp
ーーーーー
<関連>
Automation の調査: インターネット・トラフィックの 50% を Bot が占めている!
アジアのデータセンター間ネットワークは、IoT の時代に耐えうるのか?
ワイヤレスやメタルを使って、1G 接続を達成するプロダクトが安価に提供される時代!
世界のクラウド・トラフィックを 2014〜2019 で分析/予測:その結果を1枚のチャートで!
4G LTE に占める TD-LTE の比率は 34.4%! 中国マーケットの爆発的な成長が!
 

Comments Off on ネットワーク障害でトラフィックが欧州から香港へ:これもヒューマン・エラー!

%d bloggers like this: