Agile Cat — in the cloud

Big Data の調査:Google の DataFlow は、MapReduce の正当な継承者になり得るのか?

Posted in Big Data, Google, Hadoop, MapReduce, On Monday by Agile Cat on July 28, 2014

Data Cloud/Big Data: Google Introduces DataFlow as Successor to MapReduce
http://wp.me/pwo1E-7HE

By Dick Weisinger – July 25, 2014
http://formtek.com/blog/data-cloudbig-data-google-introduces-dataflow-as-successor-to-mapreduce/

_ formtek

Do you feel left behind when it comes to technologies like Hadoop and MapReduce?  The great thing about the rapid speed that technology is changing and obsolescing is that if you miss one trend it’s not long before it’s been superseded by something else.  That lets you leapfrog directly into the newer technology without having wasted time and resources on the older technology.  Although you’ve got to jump in sometime!

Hadoop や MapReduce といったテクノロジーの話になると、時代に取り残されていると感じるだろうか? そして、それらのテクノロジーにおける素晴らしいスピードは、それ自身を変化させ、また、旧式化させていく。 したがって、何らかのトレンドを見逃したとしても、それほど時間を置くことなく、それらに取って代わるものを見出すことができる。 つまり、古いテクノロジーに時間と資源を浪費することなく、新しいテクノロジーへ向けて、ダイレクトにジャンプすることが可能なのだ。 どんなタイミングでジャンプするのかという、課題は残されるのだけどね!

 Google announced in June that they’ve long ago dropped MapReduce technologies like Hadoop.  And in fact they’re even going to open up their ‘better way’ of analyzing Big Data sets to the public.  It’s part of the Google Cloud Platform.  And the components of the new Google technology called DataFlow have cool names like Flume and MillWheel.

Google が 6月に発表したのは、ずっと以前に MapReduce(Hadoop の原型)テクノロジーを廃止していたことである。実際のところ、Big Data の分析を開かれたものにするために、Google としての Better Way に取り組もうとしているのだ。それは、Google Cloud Platform の一部も構成する。この、Google における新しいテクノロジー・コンポーネントは、Flume MillWheel のようにクールな、DataFlow という名前を与えられている。

The limitation of MapReduce strategies are that they are run as batch jobs.  To use MapReduce and standard Hadoop, all the data needs to already exist and to have been collected before the job begins.

MapReduce ストラテジーにおける制約は、バッチ・ジョブとして実行される点にある。MapReduce や標準的な Hadoop を使用するには、そのジョブの開始する前に、存在すべき全データが揃っていなくてはならない。

Greg DeMichillie, Director of Product Management, wrote that ”a decade ago, Google invented MapReduce to process massive data sets using distributed computing.  Since then, more devices and information require more capable analytics pipelines—though they are difficult to create and maintain.  Cloud Dataflow makes it easy for you to get actionable insights from your data while lowering operational costs without the hassles of deploying, maintaining or scaling infrastructure. You can use Cloud Dataflow for use cases like ETL, batch data processing and streaming analytics, and it will automatically optimize, deploy and manage the code and resources required.”

Director of Product Management である Greg DeMichillie は、「 Google は 10年前に発明した MapReduce は、分散コンピューティングを用いて、大規模なデータセットを処理するためのものである。それ以来、より高機能な分析パイプラインが、数多くのデバイスと情報のために必要とされてきたが、それらを開発/維持していくのは困難なことであった。Cloud Dataflow を用いれば、それらのデータから、実用的な洞察を容易に得られるようになる。 その一方で、インフラストラクチャのディプロイ/メンテナンス/スケーリングに煩わされることもなく、運用コストを削減できる。この Cloud Dataflow は、ETL/バッチ・データ処理/ストリーミング分析のようなユースケースに対して、用いることが可能になっている。そして、必要とされるコードとリソースを、自動的に最適化し、展開し、管理していく」と述べている

Brian Goldfarb, Google Cloud Platform head of marketing, said that with Big Data that “the program models are different. The technologies are different. It requires developers to learn a lot and manage a lot to make it happen.  It [Google DataFlow] is a fully managed service that lets you create data pipelines for ingesting, transforming and analyzing arbitrary amounts of data in both batch or streaming mode, using the same programming model.”

Google Cloud Platform の Head of Marketing である Brian Goldfarb は、Big Data との対比について、「 プログラム·モデルが異なり、また、テクノロジーも異なる。それを実現するためには、デベロッパーが必要とするのは、より多くのことを学び、より多くのことを管理することである。Google DataFlow は、バッチとストリーミングのモードにおいて、同じプログラミング・モデルを用いて、大量のデータを洞察/変換/分析する、データ・パイプラインを作成するための完全なマネージド・サービスである」と発言している

Urs Hölzle, senior vice president of technical infrastructure Google, said that ”Cloud Dataflow is the result of over a decade of experience in analytics.  It will run faster and scale better than pretty much any other system out there.”

Google の Senior VP of Technical Infrastructure である Urs Hölzle は、「 Cloud Dataflow は、分析における、私たちの 10年以上にもおよぶ経験から生まれたものである。 それは、他のシステムと比べて、高速で動作し、スケーリングにも優れている」と、述べている

ーーーーー

Todd Hoff さんの、「Google Instant では、リアルタイム検索のために MapReduce を排除!」というポストによると、Google が MapReduce を止めたのは 2010年ということになります。 それから、すでに、4年が経っているのですね。 Hoff さんは、「 Google の 3つの世代を振り返る – Batch, Warehouse, Instant 」という素晴らしい記事も書いています。 どちらも、読み応え 十分の記事ですが、よろしければ ど〜ぞ!

ーーーーー

<関連>

Cloud の調査:マイグレーションの期間は終わり、クラウド・ネイティブ・アプリの時代が始まる
SaaS and ECM の調査:クラウドは何も失わず、メリットだけを提供する
Cloud の調査: Docker によるアプリのパッケージ化は、大きな実績を残し始めている!
Cloud の調査: すべては Hybrid へと集約されていくのか?
Big Data の調査:未来においても Hadoop の支配は続くのか?

Google の 3つの世代を振り返る – Batch, Warehouse, Instant

Posted in .Selected, Big Data, Google by Agile Cat on September 27, 2011

The Three Ages of Google – Batch, Warehouse, Instant
Monday, August 29, 2011
http://highscalability.com/blog/2011/8/29/the-three-ages-of-google-batch-warehouse-instant.html

_ highscalability

imageThe world has changed. And some things that should not have been forgotten, were lost. I found these words from the Lord of the Rings echoing in my head as I listened to a fascinating presentation by Luiz André Barroso, Distinguished Engineer at Google, concerning Google’s legendary past, golden present, and apocryphal future. His talk, Warehouse-Scale Computing: Entering the Teenage Decade, was given at the Federated Computing Research Conference. Luiz clearly knows his stuff and was early at Google, so he has a deep and penetrating perspective on the technology. There’s much to learn from, think about, and build.

世界は変化した。 そして、忘れ去られるべきではない、いくつかのものが失われた。 Google の Distinguished Engineer である、Luiz Andre Barroso による魅力的なプレゼンテーションを聴いたとき、この Lord of the Rings の言葉が、私の頭の中で響いていることに気づいた。それは、Google における伝説的な過去と、現在の輝き、そして疑わしき未来のことである。 彼の話である、Warehouse-Scale Computing: Entering the Teenage Decade は、Federated Computing Research Conference で提供されている。 明らかに、Luiz は自身の専門分野に明るく、また、早期の Google に在籍していた。 したがって、このテクノロジーに対して、深く鋭い見識を持っている。 そこには、学習し、思考し、構築すべき、数多くの事柄がある。

Lord of the Rings applies at two levels. At the change level, Middle Earth went through three ages. While listening to Luiz talk, it seems so has Google: Batch (indexes calculated every month), Warehouse (the datacenter is the computer), and Instant (make it all real-time). At the “what was forgot” level, in the Instant Age section of the talk,  a common theme was the challenge of making low latency systems on top of commodity systems. These are issues very common in the real-time area and it struck me that these were the things that should not have been forgotten.

Lord of the Rings を、2つのレベルに対して適用する。 このレベルの変節において、Middle Earth は 3つの世代を経過してきた。Luiz の話に耳を傾けると、Google には Batch(毎月計算されるインデックス)、Warehouse( データセンターこそコンピューティング)、そし てInstant(すべてをリアル・タイムに)があるように思われる。 この話において、Instant Age セクションの「忘れ去られたもの」レベルに在る普遍的なテーマは、普及品システムの上に低レイテンシー・システムを構築するというチャレンジであった。 それは、リアルタイム・エリアにおける極めて普遍的な問題であり、また、忘れ去られるべきものではないと、私の頭の中に響いた。

What is completely new, however, is the combining of Warehouse + Instant, and that’s where the opportunities and the future is to be found- the Fourth Age.

しかし、完全に新しいものというと、それは Warehouse + Instant という結合であり、また、機会と未来が見いだされる、Fourth Age のあるべき場所となる。

The First Age – The Age of Batch

imageThe time is 2003. The web is still young and HTML is still page oriented. Ajax has been invented, but is still awaiting early killer apps like Google Maps and a killer marketing strategy, a catchy brand name like Ajax.

話は 2003年にさかのぼる。 Web は、まだ若く、HTML はページ指向であった。そして、Ajax が考案されたが、Google Maps のようなキラー・アプリ待っている状況であり、Ajax のような魅力的なブランドネームを持つ、キラー・マーケティング戦略が待ち望まれていた。

Google is batch oriented. They crawled the web every month (every month!), built a search index, and answered queries. Google was largely read-only, which is pretty easy to scale. This is still probably the model most people have in their minds eye about how Google works.

Google は、バッチ志向である。 毎月の Web クローリングを行い(毎月だったのだ!)、検索インデックスを構成し、クエリーに対して答えていた。 Google の大部分はリードオンリーであり、また、そのスケールも、きわめて容易であった。おそらく、この段階の Google は、それが機能すろ様子に、人々が関心をもつという、モデルであったに過ぎない。

Google was still unsophisticated in their hardware. They built racks in colo spaces, bought fans from Walmart and cable trays from Home Depot.

Google は、ハードウェアという視点においても洗練されていなかった。 彼らは、コロケーション・スペースにラックを構築し、Walmart からファンを買い、Home Depot からケーブル・トレイを仕入れていた。

It’s quaint to think that all of Google’s hardware and software architecture could be described in seven pages: Web Search for a Planet: The Google Cluster Architecture by Luiz Barroso, Jeffrey Dean, and Urs Hoelzle. That would quickly change.

Google のハードウェアとソフトウェアにおける、すべてのアーキテクチャが、Luiz Barroso/Jeffrey Dean/Urs Hoelzle による 7ページのドキュメン 『 Web Search for a Planet: The Google Cluster Architecture 』 に記述できていた、と思うこと自体が興味深い。 そして、それらは急速に変化していった。

The Second Age – The Age of the Warehouse

The time is 2005. Things move fast on the Internet. The Internet has happened, it has become pervasive, higher speed, and interactive. Google is building their own datacenters and becoming more sophisticated at every level. Iconic systems like BigTable are in production.

時は 2005年である。 インターネット上の動向が加速してきた。 そして、普及と、高速化と、対話型の実現が、インターネット上で実現されていった。 Google は自身のデータセンターを構築し、すべてのレベルにおいて更に洗練されていった。 BigTable のような象徴的なシステムが、プロダクションのレベルにあった。

About this time Google realized they were building something qualitatively different than had come before, something we now think of, more or less, as cloud computing. Amazon’s EC2 launched in 2006. Another paper, this one is really a book,  summarizes what they were trying to do: The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines by Luiz André Barroso and Urs Hölzle. Note the jump from 7 pages to book size and note that it was published in 2009, 4 years after they were implementing the vision. To learn what Google is really up to now will probably take an encyclopedia and come out in a few years, after they are on to the next thing.

この時点において、従来からのものとは質的に異なる何かを、Google は構築していると悟った。それは、多かれ少なかれ、クラウド・コンピューティングとして、現在の我々が考えている何かである。 そして Amazon の EC2 が、2006年に立ち上がった。 もう 1つのペーパーが、今度は本物の本である、The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines が Luiz Andre Barroso と Urs Holzle により書き下ろされ、彼らが行おうとしていることを要約した。 そのノートは、当初の 7ページからブックサイズにまで拡大され、彼らがビジョンを実装した 4年後の、2009年に出版された。 これまでに Google が行ってきた、本当のことを学習しようとするなら、彼らが次のステージへ移った後に、おそらく百科事典を手に取り、数年を費やす必要があるだろう。

The fundamental insight in this age is that the datacenter is the computer. You may recall that in the late 1980s Sun’s John Gage hailed “the network is the computer.” The differences are interesting to ponder. When the network was the computer we created client-server architectures that appeared to the outside world as a single application, but in reality they were made of individual nodes connected by a network. Wharehouse-scale Computing (WSC) moves up stack, it considers computer resources, to be as much as possible, fungible, that is they are interchangeable and location independent.  Individual computers lose identity and become just a part of a service. Sun later had their own grid network, but I don’t think they ever had this full on WSC vision.

この年代における基本的な洞察は、[the datacenter is the computer]という点に集約される。1980年代の後期に、Sun の John Gage が[the network is the computer]という概念を支持したことを思い出すかもしれない。 この相違点について、思い巡らすのも面白い。 そして、[ the network is the computer]が登場したとき、外側の世界と結ぶクライアント・サーバ・アーキテクチャを、私たちはシングル・アプリケーションとして構成した。しかし、その実体は、ネットワークにより接続される、個別のノードから構成されるものであった。  Wharehouse-scale Computing(WSC)は、考え得る限りのコンピュータ・リソースを、上位のスタックへと押し上げる。 そして、その代償として、ロケーションに依存しない、置き換えが可能なものへとなっていく。それぞれのコンピュータがアイデンティティを失い、サービスにおける単なる一部へと変化していく。 Sun の後期には、自身のグリッド・ネットワークを存在していたが、この WSC のフル・ビジョンを、彼らが持っていたとは思えない。

Warehouse scale machines are different . They are not made up of separate computers. Applications are not designed to run single machines, but to run Internet services on a datacenter full of machines. What matters is the aggregate performance of the entire system.

Warehouse スケールのマシンは、別の考え方による。 それらは、別個のコンピュータで構成されるものではない。 アプリケーションをシングル・マシンで実行するのではなく、データセンターを埋め尽くす全てのマシンで、インターネット・サービスを実行するようにデザインされている。 重要なことは、全体的なステムのパフォーマンス・アグリゲーションである。

The WSC club is not a big one. Luiz says you might have warehouse scale computer if you get paged in the middle of the night because you only have petabytes of data of storage left. With cloud computing

この WSC の世界は、決して広ものではない。 Luiz が言うには、ストレージにペタバイトのデータ残っているから、真夜中に呼び出される場合もあるという、Warehouse スケール・コンピュータの世界になるらしい。

The Third Age – The Age of Instant

The time is now. There’s no encyclopedia yet on how the Age of Instant works because it is still being developed. But because Google is quite open, we do get clues: Google’s Colossus Makes Search Real-Time By Dumping MapReduce; Large-Scale Incremental Processing Using Distributed Transactions And Notifications; Tree Distribution Of Requests And Responses; Google Megastore – 3 Billion Writes and 20 Billion Read Transactions Daily; and so much more I didn’t cover or only referenced.

ようやく、現在にまで戻ってきた。 それは、まだ開発の途上であるため、Age of Instant の機能や振る舞いに関する百科事典も無い。 ただし、Google はきわめてオープンであるため、私たちは手がかりを得られる: Google’s Colossus Makes Search Real-Time By Dumping MapReduce; Large-Scale Incremental Processing Using Distributed Transactions And Notifications; Tree Distribution Of Requests And Responses; Google Megastore – 3 Billion Writes and 20 Billion Read Transactions Daily ; などの、カバーできていない、リファレンスだけのものがある。

Google’s Instant Search Results is a crude example Luiz says of what the future will hold. This is the feature that when you type in a letter in the search box you instantly get back query results. This means for every query 5 or 6 queries are executed. You can imagine the infrastructure this must take.

Google の Instant Search Results は、 Luiz の言う未来へ向けた、まだ荒削りな事例である。 この機能は、検索ボックスで文字入力した直後に、クエリーにより結果を受け取るというものである。 つまり、すべての検索において、5~6 回のクエリーが実行されることになる。そのために必要なインフラストラクチャについて、あなたはイメージできるだろうか。

The flip side of search is content indexing. The month long indexing runs are long gone. The Internet is now a giant event monster feeding Google with new content to index continuously and immediately. It is astonishing how quickly content is indexed now. That’s a revolution in architecture.

検索の裏側にあるのは、コンテントのインデックス化である。 1ヶ月も前のインデキシングを実行しなくなってから、ずいぶんと歳月が経っている。 そしてインターネットは、新しいコンテントのインデックスを、連続的かつ即時的も Google に供給する、巨大なイベント・モンスターであり続ける。 現在における、コンテントのインデックス化を評価するなら、そのスピードに驚くばかりとなる。 それは、アーキテクチャにおける革命である。

Luiz thinks in the next few years the level of interactivity, insight and background information the system will have to help you, will dwarf what there is in Instant Search. If you want to know why Google is so insistent on using Real Names in Google+, this is why. Luiz explains this change having 4 drivers:

Luiz の考えでは、この先の数年において、対話性と、洞察力、バックグラウンド情報のシステムにより、ユーザーは支援される必要があるようだ。 それにより、Instant Search は突出した存在ではなくなる。なに故に、Google+ における Real Names 使用を、Google が強く主張しているのかと考えるなら、それが答えなのかもしれない。 Luiz の説明によると、この変更は、以下の 4項目を含んでいる:

  • Applications – instantaneous , personalized, contextual
  • Scale – increased attention to latency tail
  • Efficiency – driving utilization up, and energy/water usage down
  • Hardware Trends – non-volatile storage, multi-cores, fast networks

Instant in the context of Warehouse computing is a massive engineering challenge. It’s a hard thing to treat a datacenter as a computer and it’s a hard thing to provide instant indexing and instant results, to provide instant in a warehouse scale computer is an entirely new level of challenge. This challenge is what the second half of his talk covers.

Warehouse コンピューティングという環境での Instant は、大規模エンジニアリングにおける課題である。 Ddatacenter as a Computer の取り扱いは難しく、また、Instant インデキシングと Instant リザルトの提供も難しいことである。Warehouse スケールのコンピューティングにおいて Instant を提供することは、完全に新しいレベルのチャレンジなのである。 このチャレンジについては、彼の話の後半でカバーされている。

The problem is we aren’t meeting this challenge. Our infrastructure is broken. Datacenters have the diameter of a microsecond, yet we are still using entire stacks designed for WANs. Real-time requires low and bounded latencies and our stacks can’t provide low latency at scale. We need to fix this problem and towards this end Luiz sets out a research agenda, targeting problems that need to be solved:

何か問題かといえば、この課題に対して、私たちが立ち向かっていないことである。 私たちのインフラストラクチャは、壊れている。 データセンターは、マイクロ・セカンド・レベルの容量を有しているが、私たちは依然として、WAN のためにデザインされた全体的なスタックを使っている。 Real-time は、低レイテンシと結合レイテンシを要求し、また、私たちのスタックは、必要とされるスケールでの低レイテンシを提供できない。 この問題をフィックスする必要があり、また、Luiz が設定した研究アジェンダに立ち向かっていく必要性がある。 そして、解決されるべき問題点は、以下のとおりである:

  • Rethink IO software stack. An OS that makes scheduling decisions 10s of msecs is incompatible with IO devices that response in microseconds.
  • Revisit operating systems scheduling.
  • Rethink threading models.
  • Re-read 1990’s fast messaging papers.
  • Make IO design a higher priority. Not just NICs and RDMA,  consider CPU design and memory systems.

“The fun starts now” Luiz  says, these are still very early days, predicting this will be the:

『 興味深いことが始まった』と Luiz は言う。 そして、以下の項目を予測するには、まだ、日が浅すぎる:

  • Decade of resource efficiency
  • Decade of IO
  • Decade of low latency (and low tail latency)
  • Decade of Warehouse-scale disaggregation, making resources available outside of just one machine, not just a single rack, but all machines.

This is a great talk, very informative, and very inspiring. Well worth watching. We’ll talk more about specific technical points in later articles, but his sets the stage not just for Google, but for the rest of the industry as well.

このトークは、とても素晴らしく、また有益であり、大いに触発される。 考えるべき、充分な重みを持つ事柄である。 私たちは、この後の記事においても、特定のテクニカル・ポイントについて説明していくだろう。 ただし、彼のセットするステージは Google のためだけに有るのではなく、この業界全体のための有るのだ。

Related Articles

 

 

 

 

ーーーーー

TAG indexひさびさの、Todd Hoff さんの記事です(Big Data カンファレンスのリストはありましたが)。 この記事は、たしか 8月の終わりにポストされていたのですが、f8 が気になって手を付けられずにいました。 でも、Facebook が新機軸を発表した後に、こうして両社を見比べてみると、やはり Google はインフラストラクチャの会社なのだと感じさせてくれますね。 とてもカッコ良いです :)  このドキュメントの先にあるリファレンスは、まだ、まったく見ていませんが、きっと深遠な世界が広がっているのでしょうね。 ーーー __AC Stamp 2

ーーーーー

<関連>

Google Instant では、リアルタイム検索のために MapReduce を排除!
Google Megastore – 1日で 30億 Write/200億 Read のトランザクションを実現
Google の発想 – リクエストとレスポンスを Tree で制御する
Google IO 2011 での、Big Data 関連ビデオをピックアップ!
Google – Cluster Computing and MapReduce Lecture 1-5
Google は 1000万台のサーバーを目指す ?
Google 的 クラウド連携の ABC ?

 

%d bloggers like this: