Agile Cat — in the cloud

クラウドにより、大きく変化する DR (Disaster Recovery)

Posted in .Selected, Data Center Trends, Miscs, Security by Agile Cat on September 15, 2011

How The Cloud Changes Disaster Recovery
July 26th, 2011 : Industry Perspectives

_ DC Knowledge

Is your company prepared to save critical business data in the event of a disaster? The US government estimates that 1 in 4 businesses won’t survive a disaster, making an IT disaster recovery plan an invaluable investment for any business owner. A decade ago, businesses could open a filing cabinet and easily retrieve paper records if they lost their electronic data. Today, businesses are critically dependent on IT systems without the ability to reference print files, simply because it is an outdated and inefficient way of keeping records. Could you imagine how eBay, Google or an electronic medical records company could operate if they lost their IT infrastructure?

あなたの会社は、大惨事が発生したときに、重要なビジネス・データを救うための準備を整えているか? 米国政府の見通しとしては、全企業の 1/4 が大惨事において生き残らないというものであり、それぞれの経営者たちによる、IT DR(disaster recovery)計画への投資を働きかけている。 10年前であれば、企業における電子データが失われても、ファイル・キャビネットを開ければ、紙に記録されたデータを取り出すことができた。 しかし、今日の企業は、紙による記録の保持は旧式で非能率的だというだけの理由で、印刷されたファイルを参照するための能力を持たない、危険な状態の IT システムに依存している。eBay や Google、そして電子化された医療情報を保持する企業が、自身の IT インフラを失ったときに、どのように運営されるのかと、想像できるだろうか?

Mike Klein

MIKE KLEIN – Online Tech — Mike Klein is president and COO of Online Tech, which provides colocation, managed servers and private cloud services.

Conventional Disaster Recovery

Conventional disaster recovery (DR) has always been expensive, time consuming and error prone. It typically includes off-site backup, often to tape that was shipped and stored offsite. Businesses would then contract for access to “similar” hardware servers from a cold site disaster recovery vendor on a first-declared, first-served basis. This conventional approach to disaster recovery presents a number of challenges.

従来からの DR (Disaster Recovery)は、常に高額の費用を必要とし、また、時間を消費し、エラーを起こしがちであった。 そして、一般的にはオフサイトへのバックアップが含まれる。つまり、テープに取り込まれたデータが、オフサイトへ搬送され、保存される。 続いて、それらの企業は、first-declared, first-served ベースの、コールド・サイトのハードウェア・サーバー群へアクセスするための、[類似]の契約を結ぶだろう。 この従来からの DR アプローチは、数多くの課題を提示する。

  • Recovery delays – Significant delays to the recovery process can be attributed to the retrieval and delivery of off-site backup tapes to the DR data center.
  • Tedious – Each cold site server has to be loaded with the operating systems and patched to the last configuration used in production. Additionally, the application software needs to be installed onto the servers and patched to the last used configuration.
  • Time-consuming – If the patch management records aren’t up to date or available when a disaster strikes, the patches need to be aligned and debugged to match the last production configuration, which can be a lengthy process.
  • Error-prone – Data must be recovered from backup tapes which have failure rates as high as 40% when read from different drives than written. The network also needs to be configured at the cold site to match the network configuration of the production site – including VLANs, VPNs, DNS and firewall rules.
  • Recovery delays – DR データセンターへ向けた、オフサイト・バックアップ・テープの抽出を搬送の結果として、リカバリ・プロセスにおける深刻な遅れが生じる。
  • Tedious – それぞれの、コールド・サイト・サーバーには OS をロードする必要があり、また、プロダクションで用いられていた、最終的なコンフィグレーションをパッチしなければならない。 さらに、サーバーにはアプリケーションをインストールし、最後に使用されていたコンフィグレーションをパッチしなければならない。
  • Time-consuming – 大惨事が発生したときに、パッチの管理記録が古い場合や、利用できない場合には、最終的なプロダクション・コンフィグレーションに、パッチを一致させ、デバッグするための、長いプロセスが必要になり得る。
  • Error-prone – データはバックアップ・テープからリカバーされるが、書き込みと読み出しが、異なるドライブで行われるときのエラー発生率は、40% という高いものである。 また、ネットワークに関しても、プロダクション・サイトに合わせた、コールド・サイト側でのコンフィグレーションが必要であり、VLAN/VPN/DNS/ファイア・ウォール規則などが含まれる。

Another problem with conventional disaster recovery is than many plans are written as a one-time fail-over process. The missing key step in most plans is how to return to the production site once it has been re-established. Annual DR testing is another often overlooked element of recovery success. Due to the time-consuming nature of executing a disaster recovery plan, many tests are only partially run and almost never tested through a full fail-over.

従来からの DR における別の問題は、数多くのプランが、一回限りのフェイル・オーバー・プロセスとして書かれている点にある。 大半の計画で欠落している重要なステップとは、プロダクション・サイト再確立された後に、そこへ戻す方式のことである。毎年の DR テストが、リカバリを成功させるためには必要だが、これも、頻繁に見落とされる要素である。 DR プランの実施が、本質的に時間を消費するため、多くのケースで部分的なテストのみが行われ、また、フェイル・オーバーの全プロセスを通したテストが行われていない。

Conventional Disaster Recovery Tradeoffs

Disaster recovery alternatives can range from simple tape backup with recovery time measured in days to fully replicated sites with recovery time measured in minutes. Generally speaking, the faster the recovery time, the more expensive the solution, as shown in Figure 1. We often find this is an effective way to explain the cost/benefit trade-offs to a CEO or CFO when proposing an IT disaster recovery project.

DR の選択肢は、復旧に数日を要する単純なテープ・バックアップから、数分で完了する完全なリプリケーション・サイトまでの、広範囲におよぶことになる。 Figure 1 に示すように、復旧時間が短ければ、そのソリューションは高価なものになる、というのが一般論である。この方式は、IT DR プロジェクトを CEO や CFO に提案するときに、そのコスト/メリットのトレードオフを説明する、効果的な方法であると認識している。

クリックで拡大 ⇒

Tape backup is a cost-effective first step for disaster recovery, but it can take days or weeks to recover if the hardware needs to be found before the recovery process can begin. On the other hand, disaster recovery to a fully replicated site can provide very fast recovery times, but is much more expensive. Providing both hardware and software at the disaster recovery site as well as a high speed network between sites for data replication can double the cost of the IT infrastructure.

テープバックアップは費用効果が高い、DR のための第一歩である。しかし、リカバリプロセスを開始する前に、必要なハードウェアを探し出すという状況に陥ると、数日から数週間を要する場合もある。 その一方で、完全なリプリケーション・サイトでの DR は、きわめて高速のリカバリ・タイムを実現するが、その対価はきわめて高額なものとなる。 DR サイトにもハードウェアとソフトウェアを供給し、サイト間リプリケーションのための高速ネットワークも必要となるため、IT インフラストラクチャのコストが倍増する可能性もある。

What Changes in the Cloud?

The cloud, specifically virtualization, takes a very different approach to disaster recovery. With virtualization, the entire server, including the operating system, applications, patches and data is encapsulated into a single software bundle or virtual server. This entire virtual server can be copied or backed up to an off-site data center and spun up on a virtual host in a matter of minutes.

クラウドにおいては、とりわけ仮想化においては、きわめて異なるアプローチが、DR に対してとられる。 仮想化を用いることで、対象となるサーバー全体が、単一のソフトウェア・バンドルあるいはバーチャル・サーバーの中にカプセル化され、そこに OS および、アプリケーション、パッチ、データなどが取り込まれる。この全体的な仮想サーバーは、オフサイト・データセンターへのコピーあるいはバックアップが可能であり、また、数分あればバーチャル・ホスト上で稼働しだす。

Since the virtual server is hardware independent, the operating system, applications, patches and data can be safely and accurately transferred from one data center to a second data center without the burden of reloading each component of the server.

この仮想サーバーがハードウェア非依存であるため、OS およびアプリケーション、パッチ、データを安全かつ正確にデータセンター間で移動することが可能となり、サーバー上に個々のコンポーネントを再ロードする負担も無くなる。

The cloud shifts the disaster recovery trade-off curve to the left, as shown in Figure 2. With cloud computing (as represented by the red arrow), disaster recovery becomes much more cost-effective with significantly faster recovery times.

そのため、Figure 2に示されるように、DR トレード・オフ・カーブは、クラウドにより左にシフトする。 クラウド・コンピューティング(赤い矢印)を用いることで、DR の費用効果は高まり、リカバリ・タイムも大幅に短縮される。

クリックで拡大 ⇒  

When introduced with the cost-effectiveness of online backup between data centers, tape backup no longer makes sense in the cloud. In cases where multi-year data archiving is needed for regulatory requirements, tape storage may be helpful. However, the cost-effectiveness and recovery speed of online, offsite backup makes it difficult to justify tape backup.

データセンター間に費用効果の高いオンライン・バックアップが導入されるとき、クラウドではテープ・バックアップは意味をなさなくなる。 多年にわたるデータ・アーカイブが、規制上の要件により必要とされるケースでは、テープ・ストレージが有効かもしれない。 しかし、オンラインの費用対効果とリカバリ・スピードが、オフサイト・バックアップにおけるテープ・バックアップの正当性に疑問を投げかける。

The cloud makes cold site disaster recovery (as traditionally offered by third parties) look like dinosaurs in the cloud computing world. Warm site disaster recovery becomes a very cost-effective option with cloud computing in which backups of your critical servers can be spun up in minutes on a shared or dedicated host platform.

クラウドという新しいコンピューティングの世界では、コールド・サイト DR(これまではサード・パーティーが供給)は恐竜のような存在になってしまう。 ウォーム・サイト DR は、クラウド・コンピューティングにおける、きわめて費用対効果の高いオプションであり、また、共有/専用ホスト・プラットフォーム上のクリティカル・サーバーのバックアップを、数分もあれば立ち上げてくれる。

With SAN-to-SAN replication between sites, hot site DR with very short recovery times also becomes a much more attractive, cost-effective option. One of the most exciting capabilities of disaster recovery in the cloud is the ability to deliver multi-site availability. SAN replication not only provides rapid fail-over to the disaster recovery site, but also the capability to return to the production site when the DR test or disaster event is over. This is a capability that was rarely delivered with conventional DR systems due to the cost and testing challenges.

サイト間での SAN-to-SAN により、きわめて短いリカバリ・タイムを実現するホット・サイト DR は、最も魅力的で、費用対効果の高い選択枝になる。 クラウドの DR における最も興味深い能力の 1つとして、マルチ・サイトによる可用性を提供する能力がある。
SAN リプリケーションは、DR サイトへ向けた迅速なフェイル・オーバーだけではなく、DR サイトでのテストや可動が終了するときに、プロダクション・サイトへと戻すための能力も供給する。 このような能力は、コストの問題とリスクを伴うテストという制約により、従来からの DR システムでは、きわめて稀にしか実現されなかった。

One of the added benefits of disaster recovery in the cloud is the ability to more finely tune the costs and performance for the DR platform. Applications and servers that are deemed less critical in a disaster can be tuned down with less resources, while simultaneously assuring that the most critical applications get all of the resources they need to keep the business running through the disaster.

クラウドにおける DR の付加的なメリットとして、DR プラットフォームに関するコストとパフォーマンスの微調整がある。 災害時に置いて、それほど重要ではないアプリケーションとサーバーが、より少ないリソースを使用するように調整できる。それと同時に、最重要のアプリケーションは、災害時においてもビジネスを継続するために必要な、すべてのリソースを使用できるように調整する。

The New Critical Path in Disaster Recovery – Networking

With the sea change in disaster recovery delivered by cloud computing, the long straw becomes the network replication. With fast server recovery at an offsite data center, the critical path for a disaster recovery operation is replicating the production network at the DR site including IP address mapping, firewall rules & VLAN configuration.

クラウド・コンピューティングにより解放され大転換する DR により、Long-Straw はネットワーク・リプリケーションになる。 オフサイト・データセンターにおける迅速なサーバー・リカバリにおいて、DR オペレーションのためのクリティカル・パスが、DR サイトにプロダクション・ネットワークをリプリケートしていくが、そこには、IP アドレス・マッピングおよび、ファイアウォール・ルール、VLAN コンフィグレーションなどが含まれる。

Smart data center operators are providing full disaster recovery services that not only replicate the servers between data centers, but also replicate the entire network configuration in a way that recovers the network as quickly as the backed up cloud servers.

フル DR サービスを提供する、スマートなデータセンター・オペレーターは、データセンター間でサーバー群をリプリケートするだけではなく、ネットワーク全体のコンフィグレーションもリプリケートする。その際には、バックアップされたクラウド・サーバーのリカバーと同じくらい迅速に、ネットワークをリカバーしていく方法がとられる。

Disaster Recovery Changes in the Cloud

There are a lot of benefits with cloud computing – cost-effective resource use, rapid provisioning, scalability and elasticity. In my opinion, one of the most significant advantages to cloud computing is the sea change it delivers for disaster recovery. Disaster recovery in the cloud becomes much more cost-effective, lowering the bar for many more enterprises to provide comprehensive DR plans for their entire IT infrastructure. Disaster recovery in the cloud provides faster recovery times and multi-site availability at a fraction of the cost of conventional disaster recovery.

クラウド・コンピューティングにおける、費用対効果の高いリソース使用および、迅速なプロビジョニング、スケーラビリティ、拡大縮小性は、数多くのメリットをもたらす。 そして、私の意見では、クラウド・コンピューティングの最重要アドバンテージの 1つとして、DR 手法における大転換がある。 クラウドにおける DR は、IT インフラ全般に対する包括的な DR プランを提供することで、エンタープライズにおけるハードルを引き下げ、さらに費用対効果の高いものになる。 クラウドにおける DR は、従来からの DR コストの何割かで、迅速なリカバリ・タイムとマルチ・サイトへの対応を実現する。

I predict we’re going to hear much more about the changes in DR strategies with the cloud over the next year as more and more enterprises revisit their DR plan in light of the advantages of cloud hosting.

クラウドを用いた DR 戦略の変化を、来年以降に数多く耳にすると、私が予測する。それらは、クラウド・ホスティングのアドバンテージを考慮した DR プランを、数多くのエンタープライズが再考することで実現されていく。

Industry Perspectives is a content channel at Data Center Knowledge highlighting thought leadership in the data center arena. See our guidelines and submission process for information on participating. View previously published Industry Perspectives in our Knowledge Library.






クラウドと DR の関係を、ここまで詳しく説明してくれるコンテントは、これまでに見たことがありません。 特別なことがあるわけではなく、それぞれの概念を組み合わせていけば、やがては到達できるものかも知れませんが、こうした知見のある方の、経験に裏付けられたマトメには、たいへんな説得力があると感じています。 そして、世の中には完全なものが無いのだという常識を前提として、クラウドを使うという意味を、もう一度 組み立てなおしてみたいと思います。 MIKE KLEIN さんに感謝です。 ーーー __AC Stamp 2



Amazon に起こった大規模ダウンタイムを分析する
Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる_1
Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる_2
Amazon の障害に関する オフィシャル・レポートを解説する


Comments Off on クラウドにより、大きく変化する DR (Disaster Recovery)

%d bloggers like this: