Agile Cat — in the cloud

プロジェクト Piccolo は、スピードで Hadoop を凌駕する

Posted in Big Data, Hadoop, Parallel by Agile Cat on February 18, 2011

Piccolo Project Tries to Speed Past Hadoop
By
Derrick Harris Feb. 3, 2011, 11:30am PST
http://gigaom.com/cloud/piccolo-project-tries-to-do-parallel-processing-faster/

_ Gigaom

Few would argue that Hadoop doesn’t have a bright future as a foundational element of big data stacks, but Piccolo, a new project out of New York University, is moving data storage into machines’ memory in an attempt to improve parallel-processing performance beyond what Hadoop and/or MapReduce can do. Todd Hoff at High Scalability profiles the project, and I’d suggest going there for the details. At a high level, the difference between Hadoop and Piccolo might be explained as the difference between digging for one vegetable at a time and spreading the cleaning and peeling duties to a team of workers, versus having those workers each grab and process their own vegetables simultaneously, from a prearranged pile above the ground.

ビッグ・データ・スタックの基本的な要素として、Hadoop の明るい未来を否定する人は、ほとんどいないだろう。しかし、New York University で生まれた新規のプロジェクトである Piccolo は、マシン・メモリ内へのデータ・ストレージの移行により、並列処理パフォーマンスの改善を試み、Hadoop や MapReduce の能力をしのぐ領域を目指す。 このプロジェクトの概要については、High Scalability の Todd Hoff が記しているため、詳細については、その参照をお勧めする。 高い抽象レベルにおいて、 Hadoop と Piccolo の相違を以下のように例えることができる。 つまり、一度に1つの野菜を掘り出し、洗って、皮を剥く、農夫の仕事が Hadoop に相当するなら、あらかじめ定められた区画から複数の農夫が、それぞれが担当する野菜を同時に収穫し、その後の処理も行うのが Piccole である。

A more technical explanation is that Piccolo uses an in-memory, key-value store and a “global table interface” — as opposed to Hadoop, which utilizes a distributed file system contained within the disk drives of the machines in the cluster — that lets the CPUs access all the data simultaneously, and at high speeds only possible by pulling data straight from RAM. In this fairly long, but genuinely interesting presentation at the OSDI 10 conference, lead developer Russell Power explains how Piccolo works, how it differs from Hadoop and how it has tested far faster than Hadoop on certain workloads. Power compares Piccolo to the Chevy El Camino, which was both efficient and easy to use while also delivering high performance. Here’s a screenshot of Power illustrating Piccolo’s scalability on an Amazon EC2 cluster:

よりテクニカルに説明すると、Piccolo はイン・メモリーと Key-Value ストアだけではなく、Hadoop の対極にある 『 グローバル・テーブル・インターフェイス 』を用いることが、大きな相違点として挙げられる。そこでは、クラスタを構成するマシンに配備されたディスク・ドライブ内に含まれる、分散型のファイル・システムを活用する。 つまり、RAM から直接データを引き出すことで可能となる、きわめて高速のデータ・アクセスを、CPU に提供することになる。OSDI 10 カンファレンスにおける、長時間におよぶが、きわめて興味深いプレゼンテーションで、中心となるデベロッパーである Russell Power が、どのように Piccolo が動くのか説明した。また、特定のワークロードにおいて、Hadoop との差異が状況と、Hadoop を上回るテスト結果について説明した。 Power は、Piccolo と Chevy El Camino と比較し、どちらが使いやすく、また、効率的で、高性能をもたらすかという点を指摘した。Amazon EC2 クラスタ上で、Piccolo のスケーラビリティを証明する、Power のスクリーンショットは以下のとおりである:

クリックで拡大 ⇒

I’m not suggesting Piccolo is going to replace Hadoop, or MapReduce, generally, anytime soon or ever — Hadoop vendor Cloudera today received a strategic investment from U.S. intelligence sector consultant In-Q-Tel, which should hammer home the fact that Hadoop is for real — but Piccolo is worth watching. It certainly wouldn’t be the first academic project in recent memory to make it big; the Marten-Mickos-led cloud-software provider Eucalyptus Systems was a research project from the University of California Santa Barbara when it caught on, and then struck it big with VCs and early adopters.

一般論として、近々あるいは特定の時期に、Hadoop や MapReduce に対して、Piccolo が取って代わると示唆しているわけではない。今日(2/3)のことだが、Hadoop ベンダーである Cloudera は、US 政府情報部門のコンサルタントである In-Q-Tel から戦略的投資を受けた。それは、Hadoop が本物であるという現実を裏付けるものだ。 しかし、Piccolo は注視し続けるだけの価値を持つ。アカデミック・プロジェクトに関する最近の記憶では、この件が最初の成功例というわけでもない。Marten Mickos が率いるクラウド・ソフトウェア・プロバイダーである Eucalyptus Systems は、University of California Santa Barbara の研究プロジェクトとして始まった。そして、広まるにつれてアーリー・アダプタを得て、VC からの資金も調達するようになった

To learn even more about the future of big data processing and analysis, make sure to attend out Structure Big Data conference March 23 in New York City. You won’t likely hear about the seedling Piccolo project, but you’ll hear plenty about cutting-edge use cases and tactics for the current generation of big data tools.

3月23日に NYC で開催される、私たちの Big Data conference に参加して欲しい。 Piccolo については聞くことができないが、最先端のデータベースを含めて、ビッグ・データを取り扱う際の要因について、また、それを解決するための最適化された戦略を学べる。

Related Content From GigaOM Pro (subscription required)

ーーーーー

いろいろと出てきて、ほんとうに面白いですね! それと、Chevy El Camino は、Todd Hoff さんサイトにあるように、いわゆるデカいアメ車のことなのでしょう。 なんで黄色いのかという、意味もあるのですね。 この人の茶目っ気が大好きです :) ーーー __AC Stamp 2

ーーーーー

<関連>
Real World NoSQL シリーズ – Openwave における Cassandra
Real World NoSQL シリーズ – 4PB を処理する Trend Micro の HBase
Yahoo!は、独自の Hadoop Distribution を止めて、Apache コミュニティに協力する
Hadoop に似た Dryad は、Microsoft の Big Data スターになれるのか

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: