Agile Cat — in the cloud

Amazon に起こった大規模ダウンタイムを分析する – Data Center Knowledge

Posted in Amazon, Data Center Trends by Agile Cat on April 23, 2011

Major Amazon Outage Ripples Across Web
April 21st, 2011 : Rich Miller

_ DC Knowledge



Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる_1


When a busy cloud computing platform crashes, the impact is felt widely. That’s the case with today’s extended outage for Amazon Web Services, which is battling latency issues at one of its northern Virginia data centers. The problems are rippling through to customers, causing downtime for many services that use Amazon’s cloud to run their web services.

人気の高いクラウド・コンピューティング・プラットフォームがクラッシュすると、その影響が広範囲におよぶ。 Amazon Web Services に広がった、今回の機能停止のケースでは、Virginia 北部のデータセンターにおけるレイテンシーへの取り組みが続いている。 この問題が、 Amazon クラウド上で稼動している数多くのWeb サービスにダウンタイムをもたらしたことで、その顧客の間に波紋が広がっている。


The sites knocked offline by Amazon’s problems include social media hub Reddit, the HootSuite link-sharing tool, the popular question-and-answer service Quora, and even a Facebook app for Microsoft (see a full list of affected sites).

この Amazon の問題によりオンライン機能を失ったサイトには、ソーシャル・メディア・ハブの Reddit や、HootSuite リンク共有ツール、人気の Q&A サービスである Quora に加えて、Microsoft 用の Facebook アプリケーションまで含まれる。(影響を受けたサイトの全リスト

AmazonThe issues began at about 1 a.m. Pacific time and are continuing as of 2:30 p.m. Pacific, with Amazon saying it still cannot predict when services will be fully recovered. By mid-afternoon, Amazon said it had limited the problems to a single availability zone in the Eastern U.S., and was attempting to route around the affected infrastructure. The AWS status dashboard shows that the services experiencing problems include Elastic Compute Cloud (EC2), Amazon Relational Database Service and Amazon Elastic MapReduce and are focused in the US-East-1 region.

この問題は Pacific タイムの 1 AM に始まり、2:30 PM の時点でも収束していない。 そして Amazon によると、いつになったらサービスが完全に回復されるのか、予測できない状況にあるという。 午後にいたるまでの Amazon の発言は、Eastern U.S の Availability Zone に限った問題であり、その影響を受けたインフラストラクチャに対するルーティングを試みるというものだった。AWS のステータス・ダッシュボードは、Elastic Compute Cloud(EC2)および、Amazon Relational Database Service、Amazon Elastic MapReduce も問題が生じていること、また、その問題が US  East-1 リージョンに集中していることを示している。

Networking Event Triggers Problems

The problems are focused on Elastic Block Storage (EBS), which provides block level storage volumes for use with Amazon EC2 instances. Latency problems at EBS were cited by Reddit when the site experienced major downtime in March.

今回の問題は、Amazon EC2 インスタンスで用いられ、ブロックレベルのストレージ・ボリュームを提供する、Elastic Block Storage(EBS)に集中している。 このサイトが、3月に大規模なダウンタイムに見舞われたとき、Reddit は EBS におけるレイテンシー問題に言及していた。

“A networking event early this morning triggered a large amount of re-mirroring of EBS volumes in US-EAST-1,” Amazon said in a status update just before 9 am Pacific time. “This re-mirroring created a shortage of capacity in one of the US-EAST-1 Availability Zones, which impacted new EBS volume creation as well as the pace with which we could re-mirror and recover affected EBS volumes. Additionally, one of our internal control planes for EBS has become inundated such that it’s difficult to create new EBS volumes and EBS backed instances.

『 今朝早くのことだが、US-EAST-1 で大量の EBS ボリュームが再ミラーリングされるという、ネットワークのイベントが発見された。この再ミラーリングにより、US  EAST-1 Availability Zones の 1つに、キャパシティの欠乏が生じた。それにより、新しい EBS のボリュームの生成に影響が生じただけではなく、影響を受けた EBS のボリュームを再ミラーリングとリカバーにも影響が生じた。 それに加えて、EBS のための内部コントロール・プレーンの 1つが逼迫し、新しい EBS ボリュームの作成や、EBS のインスタンス確保が困難になった 』 と、Pacific タイム 9時前のステータス・アップデートでAmazon は発言している。

“We are working as quickly as possible to add capacity to that one Availability Zone to speed up the re-mirroring, and working to restore the control plane issue,” Amazon continued. “We’re starting to see progress on these efforts, but are not there yet. We will continue to provide updates when we have them.”

『 私たちは、その Availability Zone にキャパシティを加え、再ミラーリングを早期に実現するために、最大限に努力している。そして、問題のコントロール・プレーンも復活させようとしている。それらの作業における進歩を注視しているが、まだ結果が現れていない。 それらの問題が収束するまで、私たちはアップデートを提供し続けるだろう 』と、Amazon は続けて言及している。

UPDATE: At 10:30 Pacific, Amazon said it was making “significant progress in stabilizing the affected EBS control plane service,” which was now seeing lower failure rates. “We have also brought additional capacity online in the affected Availability Zone and stuck EBS volumes (those that were being remirrored) are beginning to recover. We cannot yet estimate when these volumes will be completely recovered, but we will provide an estimate as soon as we have sufficient data to estimate the recovery.”

UPDATE: Pasific タイムの 10:30 に Amazon は 『 影響を受けた EBS コントロール・プレーン・サービスを安定させる作業において、の著しい進展が見られる 』と発言し、障害レートの低減も確認されている。 『 さらに、影響を受けた Availability Zone にオンライン・キャパシティを追加し、スタックしていた(再ミラーリングされていた)EBS ボリュームが回復し始めている。それらのボリュームが完全に回復されまでの時間は、まだ見積もることができないが、リカバリ時間を見積もるための充分なデータが得られれば、それを直ちに公表する 』

UPDATE 2: At 1:48 p.m. Amazon said a single Availability Zone in the US-EAST-1 region continues to experience problems launching EBS backed instances or creating volumes. “All other Availability Zones are operating normally,” Amazon said. “Customers with snapshots of their affected volumes can re-launch their volumes and instances in another zone. We recommend customers do not target a specific Availability Zone when launching instances. We have updated our service to avoid placing any instances in the impaired zone for untargeted requests.”

UPDATE 2: 1:48 PM に Amazon は、US EASTー1 シージョンの Single Availability Zone において、インスタンスを報奨された EBS の立ち上げおよびボリュームの作成に、まだ問題が残っていると発言した。 『 その他の、すべての Availability Zones は、通常どおりに運用されている 』と、Amazon は発言している。 『 影響を受けたボリュームのスナップショットを用いる顧客は、別のゾーンでボリュームとインスタンスの再立ち上げが可能となっている。なお、それらのインスタンスを立ち上げる時には、特定の Availability Zone をターゲットにしない方式を推奨する。 目標を定めないリクエストを、機能が損なわれたゾーンに配置しないように、サービスをアップデートしている 』

The outage even has affected a Microsoft initiative, according to a Facebook post by the company. “For those of you trying to enter our ‘Big Box of Awesome’ sweepstakes…the entry site is currently down, related to a broader problem impacting a number of sites across the internet today,” Microsoft told its Facebook followers. “We’ll let you know when it’s back up.” Microsoft has its own data center infrastructure, but some business units use third-party services. The Big Box of Awesome Facebook app is hosted on EC2.

Microsoft の Facebook ポストによると、今回のサービス停止により、同社のイニシアティブにも影響が生じている。 そして、『 私たちの  ‘Big Box of Awesome’ 懸賞に参加しようとする人々にとって、そのためのエントリー・サイトがダウンしている。 インターネット全体におよび、数多くのサイトに影響を与えた、今日の問題と関係がある。その復旧のタイミングは、後に知らせる 』と、同社の Facebook フォロワーへ向けて発言している。 Microsoft は、自身のデータセンター・インフラストラクチャを有しているが、いくつかのビジネス・ユニットでは、サードパーティーのサービスが利用されている。 つまり、Big Box of Awesome Facebook アプリケーションは、EC2 上にホストされていることになる。

Multi-Region Failover Option

The outage appears to affect many, but not all, customers using the US-East-1 region. Amazon operates multiple regions, allowing users to add redundancy to their applications by hosting them in several regions. In a multi-region setup, when one region experiences performance problems, customers can shift workloads to an unaffected region.

今回のサービス停止は、広範囲に影響をおよぼしているが、それは US-East-1 を用いる顧客に対するものであり、すべてに対するものでは無い。 Amazon はマルチ・リージョンを運営しており、それらをまたいで顧客をホストすることで、アプリケーションに冗長性を加えるている。 マルチ・リージョンの設定においては、1つのリージョンに問題が生じたとき、その影響を受けていないリージョンに、そのワークロードを移すことができる。

Whenever Amazon Web Services experiences outages and performance problems, it typically highlights the multi-region option, which allows customers to avoid having its cloud assets constitute a “single point of failure.” Today’s outage is likely to prompt some customers that rely on Amazon to examine adding additional regions to their deployment and other strategies to work around EC2 outages.

Amazon Web Services に、サービスの停止やパーフォーマンスの問題が生じるときには必ず、このマルチ・リージョンの選択が注目を集める。それにより、クラウド資産の構成が “single point of failure” を回避できるようになる。 今日のサービス停止により、Amazon に依存する何社かの顧客は、そのディプロイメント・リージョンの追加を促され、また、EC2 サービス停止への取り組みを促されるだろう。

The outage is also likely to prompt discussion of the reliability of cloud computing. Is it a fair question to raise? Today’s outage has affected many customers, highlighting the vulnerability of a single service hosting many popular sites.

さらに、今回のサービス停止は、クラウド・コンピューティングの信頼性についても、議論を促すことになるだろう。 それは、提起されるべき、公正な問題になるのだろうか? 今回の問題は、数多くの顧客に影響を与え、数多くの人気サイトを、単一のサービス上にホスティングうことの脆弱性を浮き彫りにした。

This has also been true of earlier outages at dedicated hosting providers like The Planet or data center hubs like Fisher Plaza. Companies relying upon those facilities could avoid outages by adding backup installations at other data centers – which is essentially the same principle as adding additional zones at Amazon.

それは、The Planet のような専用のホスティング・プロバイダーや、Fisher Plaza のようなデータ・センター・ハブに起きた、以前の障害においても真実である。 それらの企業は、他のデータセンターにバックアップ・インストールを加えることで、同社のファシリティに依存する顧客を、サービス停止から回避させることができた。そして、それは、Amazon に追加ゾーンを加えることと、本質的に同じことである。

Stuff happens. We write about outages all the time. But real-world downtime is particularly problematic in the context of claims that the cloud “never goes down.” Cloud infrastructure can also fail. The difference is that cloud deployments offer new options for managing redundancy and routing around failures when they happen.

必ず、何かが起こる。 したがって、私たちは常に、サービス停止について論じてきた。 しかし、現実世界のダウンタイムは、クラウドは「決してダウンしない」という主張という状況において、特に重視すべき問題である。 やはり、クラウド・インフラストラクチャにも、障害が発生することがあるのだ。 従来タイプに対するクラウドの相違点は、そのディプロイメントが冗長性を管理し、また、発生した障害を回避するルーティングを提供するところにある。


昨日に起こった、Amazon AWS のサービス停止については、数多くのメディアが取り扱っていますが、こういうときは、やはり Rich Miller さんの出番ですね。 すべての情報が収集できている状況ではないと思いますが、それを Amazon に促し、AWS の問題というより、クラウド業界の問題として、前向きに対処していこうとする姿勢に拍手です。 また、Amazon としても、AWS の規模があるからこそ、起こり得た問題として捉え、情報の開示によるクラウド業界への貢献を考えて欲しいですね。 リーダーなんですから、きっと Werner Vogels さんが、やってくれるでしょう! ーーー __AC Stamp 2



Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる_1
Amazon CTO – Werner Vogels が、クラウド・エコシステムを語る
Elastic Beanstalk とは? – Amazon CTO の Werner Vogels が語る
Amazon S3 のオブジェクト数が 2620 億個に!
もう SLA なんて不要だ – Google が自慢する究極のインフラ

Comments Off on Amazon に起こった大規模ダウンタイムを分析する – Data Center Knowledge

%d bloggers like this: