Agile Cat — in the cloud

MapReduce と Hadoop の将来について

Posted in Big Data, Hadoop, MapReduce by Agile Cat on October 10, 2010

MapReduce and Hadoop Future
by Alex Popescu
Oct 7th, 2010 3:16
http://nosql.mypopescu.com/post/1258860459/mapreduce-and-hadoop-future

image

In the light of ☞ Google Caffeine announcement — a summary of a summary would be that Google replaced MapReduce-based index updates with a new engine that would provide more timely updates — ☞ Tony Bain is wondering if Michael Stonebraker and DeWitt’ paper ☞ MapReduce: a major step backwards hasn’t thus been proved to be correct:

Google Caffeine のアナウンスメントを考慮に入れて(MapReduce ベースのインデックス更新を、よりタイムリーな更新を提供する新しいエンジンを、Google が置き換えたという一連の要約のこと)、Michael StonebrakerとDeWitt’の論文、”MapReduce:大きな後退”は従って正しいと証明されたことになっていないのかと、Tony Bainは考えている。

Firstly, was Stonebraker and Dewitt right? It is red faced time for those who came out and aggressively defended the Map/Reduce architecture?

第一に、 Stonebraker と Dewitt は正しかったのか? MapReduce アーキテクチャを広めて擁護した人たちが、恥じをかくときがきたのか?

And secondly what impact does this have on the future of Map/Reduce now those responsible for its popularity seem to have migrated their key use case? Is the proposition for Map/Reduce today still just as good now the Google don’t do it? (Yes I am sure Google still use Map/Reduce extensively and this is a bit tongue in cheek. But the primary quoted example relates to building the search index which is what, reportedly, has been moved away from MR).

第二に、このことが、MapReduceの将来にどのような影響を与えるのか? MapReduce が人気を博してきたことに、責任をもつべき人々が、そのキーとなるユースケースから移行してしまったかのように見える(つまり、Googleが検索インデックスから?この Map/Reduce に関する提言は、Google が使わない今でも、これまでと同様に有効なのだろうか? (Google は広範囲において、皮肉を込めて言えば、まだ MapReduce を使っていると確信している。 しかし、伝えられるところによれば、 主として引用されたサンプルは、MR から切り離されている検索インデックスの構築に関連する)。

While all these questions seem to be appropriate, I think some details could help with finding the correct answers.

上記の質問が適切であるようにみえる一方で、いくつかの正解を誘導できたと、私は思っている。

Firstly, I think Google’s decission to “drop” MapReduce-based index updates was determined by their particular implementation and their storage strategy. Simply put, Google’s MapReduce-based index updates required reprocessing of data, so providing timely updates was more or less impossible. But as proved by CouchDB mapreduce implementation this approach is not the only one possible. CouchDB views are built as a result of running a pair of map and reduce functions and storing it in btrees. As for updates, CouchDB doesn’t need to reprocess all initial data and rebuild the index from scratch, but only apply changes from the updates. In this regard, Stonebraker seem to have been right when saying that it is “a sub-optimal implementation, in that it uses brute force instead of indexing”.

第一に、MapReduce ベースのインデックス更新を 『やめる』という Google の決定は、その実装とストレージ戦略に起因するものだと考える。シンプルに言えば、Google における MapReduce ベースのインデックス更新は、データの再処理を必要とする。 そのため、タイムリー( Instant)な更新を提供するが、いずれにせよ不可能だった。 しかし、CouchDB の Mapreduce 実装が証明するように、Google のアプローチだけが、唯一可能性を示すというものではない。CouchDB のビューは、Map と Reduce をペアとして実行した結果として、また BTree 内にストアするものとして構築される。CouchDB における更新は、すべてのイニシャル・データの再処理と、インデックスのゼロからの再構築を必要とせず、更新に基づいた変更だけを適用する。 この点に関して、『 インデックス処理に換えて、ちから技を用いるという点で、次善の実装である 』という、Stonebraker の発言は正しかったと思われる。

While Hadoop, the most well know mapreduce implementation, is following closely Google’s design, that doesn’t mean that there isn’t work done to improve its behavior for special scenarios like real-time stream processing, cascading, etc.

MapReduceの実装として最も広く認識されている Hadoop は、Googleの設計に良く従っている。しかし、たとえばリアルタイムにおけるストリーム・プロセッシングやカスケーディングなどの特別のシナリオのために、すでに Hadoop を改良する余地はないという意味ではない。

As regards the questions related to the impact of Google’s announcement on MapReduce adoption, I’d say that taking a look at the reports from the Hadoop Summit we all would agree that for quite some time the biggest proponents of MapReduce (in its Hadoop incarnation) have been Yahoo!, Facebook, Twitter, and other such companies. And, as I said it before, it sounds like Hadoop is actually processing more data than Google’s MapReduce .

Google による MapReduce の肯定的な容認の、影響をうけた論点として、この Hadoop Summit のレポート参照したい。それは、ずいぶんと以前から、MapReduce(化身としての Hadoop)における最大の提案者が、Yahoo! および、Facebook、Twitter などであると、私たち全てが同意していることである。 そして、以前から発言しているように、Google の MapReduce よりも Hadoop の方が、大量のデータを処理している印象がある。

Last, but not least, as with any NoSQL technology all these do not mean that MapReduce or Hadoop will fit all scenarios.

最後になるが、いかなる NoSQL テクノロジーの存在を考慮しても、その全てが意味していることがる。 つまり、MapReduce であっても、Hadoop であっても、すべてのシナリオにもフィットするわけではない

Original title and link: MapReduce Future (NoSQL databases © myNoSQL)

Reading List:

Google BigQuery SQL-like API
Howl: Unifying Metadata Layer for Hive and Pig
Pig: Making Hadoop Easy
Hadoop Tutorial Part 2: Getting Started with Partitioning
Hadoop: The Problem of Many Small Files
Hadoop and HBase Status Updates after Hadoop Summit
NoSQL Databases and The Unix Philosophy

ーーーーー

Map/Reduce は、すでに Google のものというより Hadoop のものである。 それにより、これまで以上に広い範囲で、数多くのシステムに適用される ・・・ という論点なのだと思います。 大賛成! ーーー A.C.

ーーーーー

<関連>
Google Instant では、リアルタイム検索のために MapReduce を排除!
Big Data と LAMP Stack
Teradata と Cloudera が Hadoop で提携!
Cloudera と Netezza による、Hadoop の商用アプライアンスとは?
Microsoft readying Hadoop for Windows Azure の対訳
Hadoop World NYC – Oct 12 2010 – 今年の目玉は Twitter、Bank of America、AOL?

2 Responses

Subscribe to comments with RSS.

  1. jingbay said, on October 11, 2010 at 9:27 am

    こんにちは。いつも記事を参考にさせて頂いています。

    翻訳に一部不明瞭な点がありましたので改良してみました。

    ☞ Tony Bain is wondering if Michael Stonebraker and DeWitt’ paper ☞ MapReduce: a major step backwards hasn’t thus been proved to be correct:

    Tony BainはMichael StonebrakerとDeWitt’の論文、”MapReduce:大きな後退”は従って正しいと証明されたことになっていないのか考えている。

    >And secondly what impact does this have on the future of Map/Reduce now those responsible for its popularity seem to have migrated their key use case?

    二つ目にこれがMapReduceの将来にどのような影響を与えるのか? MapReduceの人気に責任のある連中が彼らのキーとなるユースケースから移行してしまったかのように見えるのに。

    >While Hadoop, the most well know mapreduce implementation, is following closely Google’s design, that doesn’t mean that there isn’t work done to improve its behavior for special scenarios like real-time stream processing, cascading, etc.

    最も良く知られているMapReduceの実装であるHadoopはGoogleの設計に良く従っているが、それがHadoopの処理を特別のシナリオのために、例えばリアルタイムでのストリームプロセッシングやカスケーディング等のために、改良を行なう余地がもうないということを意味しない。

    >As regards the questions related to the impact of Google’s announcement on MapReduce adoption, I’d say that taking a look at the reports from the Hadoop Summit

    GoogleのMapReduceの受け入れに関するレポートの衝撃によりもたらされた疑問に従って、Hadoopサミットのレポートを見ることにしようと思う。

    >Last, but not least, as with any NoSQL technology all these do not mean that MapReduce or Hadoop will fit all scenarios.

    最後に、様々なNoSQLテクノロジーの存在を考慮しても、これら全てはMapReduceやHadoopがどんなシナリオにもフィットする訳ではないことを意味する。

    後、この文書の感想ですが、CouchDBは確かにindexを残しますが、少量のデータでもviewが増えるに従いとんでもない量のディスクを消費します。CouchDBのやり方がそのままPBの領域にスケールすることはありえないでしょう。もちろんこの筆者もCouchDBが正しいという訳でなく、MapReduceの別の実装方法の一例として取り上げただけだとは思います。
    この文書は明らかに象本で紹介されていたStonebreakerの論文が正しかったという論調で書かれています。
    しかしMapReduceが行ったことの価値はMapReduceという処理方式そのものよりも、分散ファイルシステムの活用やJobTracker、TaskTrackerの活用によるフェイルオーバー等を含めた生産性が高く、スケールアウトが用意なプラットフォームを用意した点にあると思います。特にOSSでをれを再現したHadoopの功績は大きかったと言えるでしょう。
    私はStonebreakerの論文の正しさにはあまり興味がなく、MapReduceが今後どのように改良されていくのかにとても興味があります。

  2. Agile Cat said, on October 11, 2010 at 11:06 am

    いろいろと、訳に対するご指摘を有難うございます。 ☞ MapReduce: a major step backwards を読まずに訳してしまい、お恥ずかしい限りです。 お陰さまで、この文章の細部がつかめてきました。 ご指摘に沿って、ポストの内容を修正してみましたのが、ご参照いただければ幸いです。
    CouchDB に関しては、「NoSQL の CouchDB が Android に搭載されるという話 : http://wp.me/pwo1E-1CP 」という記事を以前にポストしています。 それが予備知識としてあったので、限られた範囲での例なのかと、考えていました。
    私の興味ですが、MapReduce に限らず、あらゆる NoSQL が、どのような用途に用いられていくのかという点に興味があります。とても面白い時期なので、毎日がワクワクです(笑)。
    それと、Facebook に fan page を作りましたので、そちらでも、いろいろと教えていただければと願っています: http://www.facebook.com/pages/Agile_Cat/118998374823947
    今後とも、よろしくお願いします。


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: