Agile Cat — in the cloud

Facebook 第四艦隊 Iowa DC が、ネットワーク・アーキテクチャを刷新して出撃!

Posted in .Selected, Data Center Trends, Facebook, Network, Open Compute by agilecat.cloud on February 19, 2015
Facebook Launches Iowa Data Center With Entirely New Network Architecture
Yevgeniy Sverdlik – November 14, 2014
http://www.datacenterknowledge.com/archives/2014/11/14/facebook-launches-iowa-data-center-with-entirely-new-network-architecture/
 
DC-Knowledge.png
 
Facebook announced the launch of its newest massive data center in Altoona, Iowa, adding a third U.S. site to the list of company-owned data centers and fourth globally.
 
Facebook は、最新の大規模データセンターを、Altoona, Iowa で立ち上げたと発表した。それは、US 国内においては 3番目の、そして、グローバルでは 4番目のファシリティとして、同社のリストに加えられることになる
 
The Altoona facility is the first in Facebook’s fleet to feature a building-wide network fabric – an entirely new way to do intra-data center networking the company’s infrastructure engineers have devised.
 
この Altoona ファシリティは、ビルディング全体をカバーするネットワーク·ファブリックを、Facebook DC 艦隊では初めて搭載している。それは、同社のインフラ・エンジニアが考案した、データセンター内のネットワーキングを刷新するものである。
 
Faacebook Iowa DCThe social network is moving away from the approach of arranging servers into multiple massive compute clusters within a building and interconnecting them with each other. Altoona has a single network fabric whose scalability is limited only by the building’s physical size and power capacity.
 
このソーシャル・ネットワークは、大量のサーバーを詰め込んだ、大規模コンピューティング・クラスタ間を、相互に接続していくアプローチから離れようとしている。そして、Altoona に配備されたシングル・ネットワーク・ファブリックの拡張性を制約するものは、ビルディングの物理的なサイズと、電力キャパシティだけとなる。
 
Inter-Cluster Connectivity Became a Bottleneck
 
Alexey Andreyev, network engineer at Facebook, said the new architecture addresses bandwidth limitations in connecting the massive several-hundred-rack clusters the company has been deploying thus far. A huge amount of traffic takes place within each cluster, but the ability of one cluster to communicate with another is limited by the already high-bandwidth, high-density switches. This means the size of the clusters was limited by capacity of these inter-cluster switches.
 
Facebook のネットワーク・エンジニアである Alexey Andreyev が言うには、これまでに同社がディプロイしてきた、数百台のラックで構成される巨大クラスタ間の、接続における帯域幅の制約に対して、この新しいアーキテクチャで取り組んでいくとのことだ。発生する膨大なトラフィックは、それぞれのクラスタ内で処理されるが、クラスタ間を通信させる能力は、高帯域幅/高密度といわれるスイッチが限界を定める。つまり、クラスタのサイズは、それらを接続するスイッチの容量により、制約されていたことになる。
 
By deploying smaller clusters (or “pods,” as Facebook engineers call them) and using a flat network architecture, where every pod can talk to every other pod, the need for high-density switch chassis goes away. “We don’t have to use huge port density on these switches,” Andreyev said.
 
小規模なクラスタをディプロイし(Facebook のエンジニアはポッドとも呼ぶ)、フラットなネットワーク・アーキテクチャを用いることで、すべてのポッド間でのコミュニケーションが可能となり、高密度スイッチ・シャーシへの必要性が消える。Andreyev は、「それらのスイッチ上の、膨大なポート密度を使用する必要がなくなった」と述べている。
 
It’s easier to develop lower-density high-speed boxes than high-density and high-speed boxes, he explained.
 
高密度のハイ・スピード・スイッチより、低密度のハイ・スピード・スイッチを作成する方が容易であると、彼は説明している。
 
Each pod includes four devices Facebook calls “fabric switches,” and 48 top-of-rack switches, every one of them connected to every fabric switch via 40G uplinks. Servers in a rack are connected to the TOR switch via 10G links, and every rack has 160G total bandwidth to the fabric.
 
個々のポッドには、Facebook が Fabric Switch と呼ぶ 4つのデバイスと、48 Top-Of-Rack スイッチが取り込まれ、それぞれの Fabric Switch が 40G Uplink を介して、すべての Fablic Switch に接続される。 また、ラック内のサーバーは 10G Link を介して TOR スイッチに接続され、すべてのラックと Fablic の間には、合計で 160G 帯域幅が確保される。
 
Facebook Iowa NetworkHere’s a graphic representation of the architecture, courtesy of Facebook:
 
The system is fully automated, and engineers never have to manually configure an individual device. If a device fails, it gets replaced and automatically configured by software. The same goes for capacity expansion. The system configures any device that gets added automatically.
 
このシステムは完全に自動化され、それぞれのデバイスに関するマニュアル・コンフィグレーションを、エンジニアに要求することはない。デバイスに障害が発生した場合は、ソフトウェアによる置換えと、自動的なコンフィグレーションが実施される。それと同じことが、キャパシティの拡張に対しても適用される。 つまり、このシステムにより、あらゆるデバイスがコンフィグレーションされ、自動的に追加されていく。
 
Using Simple OEM Switches
 
The fabric does not use the home-baked network switches Facebook has been talking about this year. Jay Parikh, the company’s vice president of infrastructure engineering, announced the top-of-rack switch and Facebook’s own Linux-based operating system for it in June.
 
ただし、今年になって Facebook が話していた内製のネットワーク・スイッチが、このファブリックに使われるわけではない。この 6月に、同社の VP of Infrastructure Engineering である Jay Parikh が、Top Of Rack スイッチと Facebook 独自の Linux ベース OS の存在について発表していたので、注釈として加えておく。
 
The new fabric relies on gear available from the regular hardware suppliers, Najam Ahmad, vice president of network engineering at Facebook, said. The architecture is designed, however, to use the most basic functionality in switches available on the market, which means the company has many more supplier options than it has had in the older facilities that rely on those high-octane chassis for inter-cluster connectivity. “Individual platforms are relatively simple and available in multiple forms or multiple sources,” Ahmad said.
 
新しいファブリックは、一般的なハードウェア・サプライヤーからの供給されるギアに依存していると、同社の VP of Network Engineering である Najam Ahmad が発言している。このアーキテクチャをデザインしたが、マーケットで入手可能な最も基本的なスイッチを使用することになる。それにより当社は、クラスタ間を接続するハイ・スペック・シャーシに依存した、古いファシリティを有するのではなく、より多くのサプライヤーからソリューションを選択できるようになる。そして、「個々のプラットフォームは、相対的に見て、複数のフォームまたは複数のソースから選ばれる、シンプルで利用しやすいものになる」と、Ahmad は述べている。
 
New Architecture Will Apply Everywhere
 
All data centers Facebook is going to build from now on will use the new network architecture, Andreyev said. Existing facilities will transition to it within their natural hardware refresh cycles.
 
これから Facebook が構築していく、すべてのデータセンターにおいて、この新しいネットワーク・アーキテクチャが採用される。そして、既存のファシリティも、それぞれのハードウェア・リフレッシュ・サイクルに合わせて、新しいアーキテクチャに移行していくと、Andreyev は発言している。
 
The company has built data centers in Prineville, Oregon, Forest City, North Carolina, and Luleå, Sweden. It also leases data centers space from wholesale providers in California and Northern Virginia, but has been moving out of those facilities and subleasing the space until its long-term lease agreements expire.
 
すでに同社は、Prineville, Oregon/Forest City, North Carolina/Luleå, Sweden にデータセンターを構築している。また、California と Northern Virginia では、卸売プロバイダからデータセンター・スペースをリースしているが、それらのファシリティからの転出が進められており、長期にわたるリース契約の残存期間は、サブリースされるものと思われる。
 
In April, Facebook said it had started the planning process for a second Altoona data center, before the first one was even finished, indicating a rapidly growing user base.
 
この 4月に Facebook は、Altoona データセンターにおける 2号棟の計画を、1号棟の完成を待たずにスタートするとアナウンスしている。 つまり、そのユーザー・ベースが、急速に成長しているのだ。
 
The company has invested in a 138 megawatt wind farm in Iowa that will generate electricity for the electrical grid to offset energy consumption of its data center there.
 
また、同社は、Iowa の 138 MW 風力ファームに投資している。それにより、自身のデータセンターが消費する電力を、送電網に対してオフセットしていくことになる。
 
ーーーーー
open-computeこれまでのような、クラスタに依存するアーキテクチャでは、いかに高帯域幅/高密度なスイッチを用いても、その処理能力が、クラスタ間での通信速度の限界を定める。そして、クラスタのサイズは、それらを接続するスイッチの容量により制約されるので、クラスタという考え方を捨てる。 つまり、10万台のサーバーで構成される、1棟のデータセンターが、1つのクラスタだ、、、という、いかにも Facebook らしいデータセンターが誕生しました。 それが、Prineville/Forest City/Lulea に続く4つ目の、この Iowa の Altoona なのです。 先日に、「アジアの Facebook MAU は 4.5億人:儲からないけど、どうするの?」という抄訳をポストしましたが、そのアジアのユーザーのために、このようなデータセンターを構築してくれたのでしょうか? ここは、ご好意に甘えるとして、バンバンと Facebook を使わせていただきましょう :)  _AC Stamp
ーーーーー
<関連>
Facebook のユーザー数は 14億人:世界の 70億人の、5人に1人が使っている!
Facebook Lite がデビュー:取り組むべきは途上国マーケットの 2G 環境だ!
Facebook エンジニア と Android ローエンド:積極的に使ってアジアを知る!
Facebook アプリ:Push + Delta + Thrift で モバイル帯域を 40% も削減!
Facebook が語るモバイル・チューニングの極意:これで途上国も OK!
Facebook と Mark の途上国戦略:Coca-Cola スタイルの長期スパンで考えていく
 
 

Facebook と Open Compute から、ついに Wedge という名の オープン・スイッチが発表された!

Posted in .Selected, Data Center Trends, Facebook, Network, Open Compute, Strategy by Agile Cat on June 20, 2014

Facebook to share first Open Compute Switch, the Wedge
http://wp.me/pwo1E-7AG

By Juha Saarinen on Jun 19, 2014
http://www.itnews.com.au/News/388499,facebook-to-share-first-open-compute-switch-the-wedge.aspx

Operates like an FBOSS.

Social networking site Facebook says it has built and is testing its first modular network switch, the Wedge, which it claims will provide the same power and flexibility as a server.

ソーシャル・ネットワーク・サイトである Facebook が言うには、初めてのモジュール式ネットワーク・スイッチである Wedge の構築が終わり、いまはテストの段階にあるようだ。 そして、この Wedge であるが、OCP サーバーと同様の、パワーとフレキシビリティを提供するという。

The work on the Wedge has been done by Facebook as part of the Open Compute Project, alongside vendors such as Broadcom, Intel, Mellanox and Accton which also contributed designs for open switches.

Wedge に関する作業は、 Open Compute Project 一環として、Facebook により完了しているが、いくつかのオープン・スイッチのデザインをコントリビュートした、Broadcom/Intel/Mellanox/Accton といったベンダーとの協業の結果でもある。

Facebook engineers Yuval Bachar and Adam Simpkins say the Wedge switch represents a departure from current networking design paradigms, and aims to run more like the existing OCP servers the company operates already.

Facebook のエンジニアである Yuval Bachar と Adam Simpkins は、この Wedge スイッチについて、現在のネットワーク・デザイン・パラダイムからの旅立ちを表現し、数多くの企業ですでに稼働している、現在の OCP サーバーのような世界を目指していると言う


クリックで拡大 ⇒

Hardware schematic of Facebook’s OCP Wedge switch

To achieve this, Facebook added a "Group Hug" microserver that punts packets inside the Wedge.

このアーキテクチャを実現するために、Facebook は Wedge の内部に、パケットを運ぶための Group Hug マイクロサーバーを追加している。

This is based on a 64-bit ARM-based AMD Opteron A1100 processor that was announced in January this year and is substantially smaller than the switching backplane form the 16 40 gigabit per second ports.

それは、今年の 1月に発表された 64 Bit ARM ベースの、AMD Opteron A1100 プロセッサをベースにしたものであり、16 個の 40 G bps ポートを構成する、既存のスイッチング・プレーンよりも、かなり小型化されている。

Facebook said it wants a proper server in the switch to bring the devices into their distributed management systems and run a standard Linux-based operating environment.

そして Facebook は、自身の分散マネージメント・システムにデバイスを取り込み、また、標準的な Linux を運用するスイッチのための、適切なサーバーを作り上げたいと述べている。

The Linux-based operating system for the switch is aptly named FBOSS and uses existing software libraries and systems that manage Facebook’s servers. This includes initial installation, upgrades, downgrades and decommissioning of systems in data centres.

このスイッチのための Linux ベース OS は、FBOSSという適切な名前を持つものであり、また、Facebook のサーバーを管理するために、既存のソフトウェア・ライブラリやシステムを使用するものとなる。このマネージメントの概念には、データセンター内における、イニシャル・インストールおよび、アップグレード、ダウングレード、システムの廃止などが含まれている。

Both the Wedge and FBOSS are being tested in Facebook’s network at present, ahead of the release of the designs to the OCP so that other members can use them.

いま、Wedge と FBOSS の双方が、Facebook のネットワーク内でテストされており、また、OCP のメンバーたちが利用できるようにするために、そのリリースへ向けてデザインを固めている状況にある。

The Open Compute Project was launched by Facebook in 2011 and aims to innovate open, scalable data centre technologies, with hardware and software that can be modified and replaced by users.

この Open Compute Project とは、2011年に Facebook により立ち上げられたものであり、ユーザーによる改変/置換が可能なハードウェア/ソフトウェアを用いて、オープンでスケーラブルなデータセンター・テクノロジーを革新していこうという目的を持っている。

Beyond server and networking technologies, the OCP is also advancing designs for storage, chassis, power supplies, device racks, energy-efficient, low-loss data centre electricity supplies, as well as cooling of facilities.

OCP の目指すものは、サーバーとネットワークのテクノロジーだけではない。具体的に言うと、最先端のストレージ/シャーシ/パワー・サプライ/ラックをデザインし、さらには、エネルギー効率の良い、省電力型のデータセンターを、クーリングも含めて検討していく。

Facebook is aiming to build all its new data centres with OCP designs, so as to enjoy benefits of economies of scale as well as rapid deployment, and lowered power usage.

Facebook は、すべての新しいデータセンターを、OCP デザインを用いて構築しようとしている。つまり、スケールを達成するだけではなく、デプロイメントの期間を短縮し、電力の消費量を引き下げることで、経済的なメリットを実現しようとしているのだ。

ーーーーー

2013年 1月に Santa Clara で開催された Open Compute Summit では、「モノリスを破壊する」というメッセージが発信されていました。 その中の一つに、この Wedge と命名されたオープン・スイッチの構想も含まれていたのでしょう。 それから、数カ月後に方針が示され、さらに1年を経て、このようなアーキテクチャによるプロダクトが整って来たわけです。この間のヒストリーについては、OCP Japan からコントリビュートされた、OCP News Archive:Open Switch で参照できます。 以下は、Open Compute による、モノリス破壊宣言です。

すべてにおいて、最もエキサイティングなのは一連の新規開発であり、これまでのテクノロジーをさらに有効利用していくための、大きなステップを与えてくれる。 1つの産業として、私たちが直面する課題は、そこで構築/消費されていくハードウェアが、きわめてモノリシックであるという点だ。つまり、私たちのプロセッサは、私たちのマザーボードと不可分であり、さらに言えば、特定のネットワーク・テクノロジーなどとも不可分である。こうした硬直した関係で、すべてが構成されているのだ。 そのため、急速に進化するソフトウェアに追いつくことの出来ないコンフィグレーションが、不完全なシステムへと導かれ、たくさんのエネルギーとマテリアルを浪費してしまう。

ーーーーー

<関連>

Facebook と OCP : オープン・スイッチ仕様を Broadcom と Intel と Mellanox が提出
Facebook は Open Compute のおかげで、この3年で 1200億円も節約できた!
Blu-ray ディスクを 10000枚:Facebook が考えるペタ/エクサ時代のコールド・ストレージとは?
SAP と HANA が、Open Compute に恋する理由
Open Compute Project : ついに Microsoft も参加を表明した!

 

%d bloggers like this: