Agile Cat — in the cloud

Hadoop に似た Dryad は、Microsoft の Big Data スターになれるのか

Posted in Big Data, Hadoop, Parallel by Agile Cat on December 24, 2010

Why Hadoop-like ‘Dryad’ Could Be Microsoft’s Big Data Star
Derrick Harris
Dec. 21, 2010, 11:09am PDT

_ Gigaom

Microsoft’s HPC division opened up the company’s Dryad parallel-processing technologies as a Community Technology Preview (CTP) last week, a first step toward giving Windows HPC Server users a production-ready Big Data tool designed specifically for them. The available components — Dryad, DSC and DryadLINQ – appear to be an almost part-for-part comparison with the base Hadoop components (Hadoop MapReduce, Hadoop Distributed File System and the SQL-like Hive programming language) and hint that Microsoft wants to offer Windows/.NET shops their own stack on which to write massively parallel applications. Dryad could be a rousing success, in part because Hadoop – which is written in Java – is not ideally suited to run atop Windows or support .NET applications.

Microsoft の HPC 部門は先週、主として Windows HPC Server ユーザーのために設計された、プロダクションに対応可能な Big Data ツールを提供する、Dryad 並列処理テクノロジーの Community Technology Preview(CTP)を、その第一歩として公開した。 そこで利用する Dryad/DSC/DryadLINQ といったコンポーネントは、大まかなところで Hadoop コンポーネント(Hadoop MapReduce/Hadoop Distributed File System/SQL-like Hive programming language)に対応しているように見える。そして、Windows および .NET の開発者に対して、大規模並列アプリケーションを記述するための、Microsoft プロダクト・スタックを積み上げるというヒントが隠されている。Hadoop は Java で記述されおり、Windows 上での実行や、.NET アプリケーションのサポートにおいて、理想的ではないため、その部分で Dryad は成功するだろう。

When Microsoft broke into the high-performance computing market in 2005 with its Windows Compute Cluster Server, it affirmed the idea that, indeed, HPC was taking place on non-Linux boxes. Certainly, given the prevalence of large data volumes across organizations of all types, there is equal, if not greater, demand for Hadoop-like analytical tools even in Windows environments. Presently, however, Apache only supports Linux as a production Hadoop environment; Windows is development-only.  There are various projects and tools floating around for running Hadoop on Windows, but they exist outside the scope of Apache community support.  A Stack Overflow contributor succinctly summed up the situation in response to a question about running Hadoop on Windows Server:

Windows Compute Cluster Server により Microsoft が 2005年に High-Performance コンピューティングの市場に参入したとき、非 Linux ボックス上の HPC が、本当に成立するという発想を確認した。 確かに、すべての組織のたるところで、大容量データがトレンドになることを前提にすると、Hadoop のような分析ツールへの需要は、Windows環境であっても、それと同じ程度を見込めるだろう。しかしながら、現時点において、Apache は Hadoop の運用環境として Linux だけをサポートしており、Windows は開発環境のみである。  Windows 上で Hadoop を実行させるための、多様なプロジェクトとツールが存在するが、それらは Apache コミュニティ・サポートのスコープから外れている。  Stack Overflow のコントリビュータが、Windows サーバー上で Hadoop を走らせるという質問への回答において、その状況を簡潔にまとめている:

From the Hadoop documentation:
‘Win32 is supported as a development platform. Distributed operation has not been well tested on Win32, so it is not supported as aproduction platform.’
Which I think translates to: ‘You’re on your own.’

Hadoop documentation より:
『 Win32 は、開発プラットフォームとしてサポートされる。 Win 32 上での分散処理は、適切にテストされていないため、運用プラットフォームとしてはサポートされない 』
私が考えだと、それは『 あなたは独り立ちしている 』と翻訳される。

Then there is the Windows Azure angle, where Microsoft appears determined to compete with Amazon Web Services. Not only has it integrated IaaS functionality in Windows Azure, but, seemingly in response to AWS courting the HPC community with Cluster Compute Instances, Microsoft also recently announced free access to Windows Azure for researchers running applications against the NCBI BLAST database, which currently is housed within Azure. Why not counter Elastic MapReduce – AWS’s Hadoop-on-EC2 service – with Dryad applications in Azure?

そして、Microsoft が Amazon Web Services との競合を決意した、Windows Azure の視点がある。それは単に、Windows Azure 内で IaaS 機能を統合するだけではなく、 Cluster Compute Instances を用いた HPC コミュニティ作りに熱心な、AWS への反応とも映る。最近のことだが、さらに Microsoft は、NCBI BLAST データベースに対抗して、研究者たちがアプリケーション実行するWindows Azure への、無料でのアクセスを発表した。 それらは、現時点において、Azure の中にホストされている。 AWS EC2 における Hadoopサービスである Elastic MapReduce に対して、Azure 上の Dryad アプリケーションで立ち向かったらどうだろう?

SD Times actually reported in May that Microsoft was experimenting with supporting Hadoop in Windows Azure, but that capability hasn’t arrived yet. Perhaps  that’s because Microsoft has fast-tracked Dryad for a slated production release in 2011. As the SD Times article explains, Hadoop is written in Java, and any support for Hadoop within Windows Azure likely would be restricted to Hadoop developers. That’s not particularly Microsoft-like, which certainly would prefer to give additional reasons to develop in .NET, not Java. Dryad would be such a reason.

この 5月のことだが、SD Times は Microsoft が Windows Azure 上で Hadoop をサポートするための実験を進めているが、その能力はまだ目標を達成していないとレポートした。 2011年に予定されていた Dryad の製品リリースを、Microsoft が前倒しにした理由は、おそらく、そこになあるのだろう。 SD Times の記事が述べたように、Hadoop は Java で記述されており、Windows Azure における あらゆる Hadoop サポートは、おそらく、Hadoop デベロッパーに対するものに限定されるだろう。 そして、Microsoft にとっては特別というわけではないが、Java ではなく .NET が優先されるという、別の理由もあるはずだ。 Dryad は、こうした背景を持つのだろう。

What might give the Microsoft developer community even more hope is the Dryad roadmap that Microsoft presented in August. ZDNet’s Mary Jo Foley noted a variety of Dryad subcomponentsthat will make Dryad even more complete, including a job scheduler codenamed “Quincy.”

その Microsoft デベロッパー・コミュニティに対して、さらなる希望を何が与えるかといえば、Microsoft が 8月に提供したDryad のロードマップである。 ZDNet の Mary Jo Foley は、Dryad の完成度を高めるサブ・コンポーネント群の存在に気づいた。 そして、「Quincy」というコードネームを付けらた、ジョブ・スケジューラーも含まれることを指摘した。

But there’s no guarantee that the production version of Dryad will resemble the current iteration too closely. As Microsoft notes in the blog post announcing the Dryad CTP, “The DryadLINQ, Dryad and DSC programming interfaces are all in the early phases of development and might change significantly before the final release based on your feedback.” A prime example of this is that Dryad has only been tested on 128 individual nodes. In the Hadoop world, Facebook is running a cluster that spans 3,000 nodes (sub req’d). Dryad has promise as Hadoop for the Microsoft universe, but, clearly, there’s work to be done.

しかし、Dryad のプロダクション・バージョンが、現時点におけるイテレーションと、きわめて類似するものになるという保証はない。 そして Microsoft は自身のブログ・ポストで、『 DryadLINQ/Dryad/DSC プログラミング・インターフェイスの全てが、現時点では初期の開発段階にあるため、最終的なリリースを迎える前に、フィードバックに基づた大幅な変更が加えられるかもしれない 』 と、アナウンスしている。その顕著な例として、Dryad がは 128 ノードだけしかテストされていないという点が挙げられる。 Hadoop 世界では、3,000 ノード(以下で参照)にまたがるクラスタが、Facebook により運用されている。 Dryad は、Microsoft の宇宙における Hadoop だと見込まれているが、完了すべき作業が、まだまだ残っている。

Related content from GigaOM Pro (sub req’d):


う~ん! コメントしにくいので、何も言わない。 ーーー A.C.


Microsoft readying Hadoop for Windows Azure の対訳
Microsoft と Intel には、並列/分散の隠し技があるのか
Dryad が DAG をつかう理由 – Dryad & DryadLINQ Team Blog
Windows Azure チームは、どのような興味を Cassandra に持っているのか?
NoSQL は Microsoft にとって重要だから、Microsoft だけに任せておけない!
実行中にノードを追加できる、新しい Elastic MapReduce とは?
MapReduce と Hadoop の将来について
Facebook の HBase は、毎月 1350億 メッセージを処理する!


%d bloggers like this: