Hadoop ビジネスで、EMC が仕掛ける大勝負とは?

Posted in .Selected, Hadoop, VMware by Agile Cat on May 19, 2011

EMC Makes a Big Bet on Hadoop
By Derrick Harris
May. 9, 2011, 11:30am PT

_ Gigaom

EMC is throwing its weight behind Hadoop. Today, at EMC World, the storage giant announced a slew of Hadoop-centric products, including a specialized appliance for Hadoop-based big data analytics and two separate Hadoop distributions. EMC’s entry is most definitely going to shake up the Hadoop and database markets. EMC is now the largest company actively pushing its own Hadoop distribution, and it has an appliance that will put EMC out in front of analytics vendors such as Oracle and Teradata when it comes to handling unstructured data.

EMC は Hadoop ビジネスにおいて、大きな勝負を仕掛けようとしている。 今日の EMC World において、このストレージの巨人は、大量の Hadoop セントリックなプロダクトを発表した。そして、その中には、Hadoop ベースの大規模データ分析アプライアンスと、2種類の Hadoop ディストリビューションが含まれる。 今回の EMC の参入により、Hadoop とデータベース市場の再編が確実に進むことになるだろう。 これからの EMC は、独自 Hadoop ディストリビューションを積極的にプッシュする、最大級の企業となる。また、同社は、非構造データのハンドリングにおいて、Oracle やTeradata といった分析ベンダーの行く手に EMC を位置づける、アプライアンスを有することになる。

EMC’s flagship Hadoop distribution is called Greenplum HD Enterprise Edition. EMC describes it as “a 100 percent interface-compatible implementation of the Apache Hadoop stack” that also includes enterprise-grade features such as snapshots and wide-area replication, a native network file system, and integrated storage and cluster management capabilities. The company also claims performance improvements of two to fives times over the standard Apache Hadoop distribution.

EMC におけるフラッグシップ Hadoop ディストリビューションは、Greenplum HD Enterprise Edition と呼ばれるものである。 それについて、EMC は「 Apache Hadoop スタックに対して 100% のインターフェイス互換性を持つ実装」と説明している。そして更に、スナップ・ショットおよび、広域リプリケーション、ネイティブのネットワーク・ファイル・システム、統合化されたストレージ、クラスタ管理機能といった、エンタープライズ・グレードの機能を、そこに含まむという。また、標準的な Apache Hadoop ディストリビューションに対して、2/5 の時間内で処理を完了するという、パフォーマンスの改善についても主張している。

Mapr Magic

imageIt’s noteworthy that many of these capabilities are also available in startup MapR’s HDFS alternative, and that MapR CEO John Schroeder took the stage at a morning EMC World press conference announcing the news. EMC Greenplum’s Luke Lonergan wouldn’t confirm to me that EMC’s Enterprise Edition will use MapR as the primary storage engine, but it’s not too difficult to connect the dots.

そして、注目すべきは、これらの機能の多くが、MapR の HDFS 選択肢として、その立ち上げに利用される点である。このニュースは、MapR の CEO である John Schroeder が、EMC World における朝のプレス・カンファレンスで、そのステージ上で表明したものである。 EMC Greenplum の Luke Lonergan は私に対して、EMC の Enterprise Edition における主要ストレージ・エンジンとして、MapR を使用する可能性を肯定しなかったが、この二点結ぶことは、それほど困難なものではない。

However, while the Enterprise Edition is proprietary in part, the Greenplum HD Community Edition is fully open source and still makes big improvements over what’s currently available with the Apache version. In fact, Lonergan told me, Community Edition is based on Facebook’s optimized version of Hadoop. Like Cloudera’s distribution for Hadoop, Community Edition pre-integrates Hadoop MapReduce, Hadoop Distributed File System, HBase, Zookeeper and Hive, but it also includes fault tolerance for the NameNode in HDFS and the JobTracker node in Hadoop MapReduce. These improvements are underway within Apache thanks to Yahoo , but they’re not included in any official release yet.

そして、この領域における Enterprise Edition がプロプライエタリなものであるにしても、Greenplum HD Community Edition は完全なオープンソースであり、また、現時点の Apache バージョンで利用できる機能に、大きな改善を加えている。 さらに Community Edition は、Lonergan が言うように、Hadoop の Facebook オプティマイズ・バージョンをベースにしているようだ。 Cloudera ディストリビューションと同様に、この Community Edition には、Hadoop MapReduce および、Hadoop Distributed File System、HBase、Zookeeper、Hive がプリ・インテグレートされているが、それらに加えて、HDFS における NameNode と Hadoop MapReduce のJobTracker ノードのための、フォールト・トレランスも含まれている。 Hadoop に関する一連の改良は、Yahoo の貢献により Apache 内で進行しているが、そのオフィシャル・リリースには、これらの機能が含まれていない。

Too Much Hadoop?

imageI asked a couple of weeks ago whether the Hadoop-distribution market could handle all the players it now hosts, and now that question is even more pressing. As Luke Lonergan put it during the press conference, EMC is an “8,000-pound elephant” in the Hadoop space, and that should make Cloudera, IBM, DataStax and (possibly) Yahoo shake seek higher ground.

2 週間前に私は、Hadoop ディストリビューション・マーケットは、それをホストする全プレーヤーを養えるかという疑問を呈したが、この問題に関する緊急性が高まってきている。今回のプレス・カンファレンスにおいて、Luke Lonergan は、その点に触れた。 EMC は、Hadoop スペースにおける「8,000ポンドの象」であり、それにより、Cloudera や、IBM、DataStax、Yahoo(もしかすると)などは、より高度な領域へと追い立てられるだろう。

For Cloudera, EMC is major threat because it competes directly against Cloudera’s open-source and proprietary products. It even has partnerships with a large number of business intelligence and other up-the-stack vendors, some of which already are Cloudera partners. These include Concurrent, CSC, Datameer, Informatica, Jaspersoft, Karmasphere, Microstrategy, Pentaho, SAS, SnapLogic, Talend, and VMware.

Cloudera にとって、EMC の戦略は、オープンソースとプロプライエタリのプロダクトで直接にぶつかるため、きわめて大きな脅威となる。 つまり、数多くの BI 企業と、それに連なるベンダーとのパートナーシップの問題であるが、すでに Cloudera と協業している企業も、いくつかあるのだ。 そして、その中には、Concurrent および、CSC、Datameer、Informatica、Jaspersoft、Karmasphere、Microstrategy、Pentaho、SAS、SnapLogic、Talend、VMware などが含まれる。

Oh, and Cloudera and Greenplum have an existing integration partnership. As Lonergan noted, “This definitely marks a change [in that relationship].” The two are now competitors, after all.

そして、何たることに、Cloudera と Greenplum も、すでにインテグレーション・パートナーシップを交わしているのだ。 Lonergan は、「 それは(そのパートナーシップは)、確実に変化する」 と、指摘している。 結局のところ、両社はコンペティター同士になってしまったわけである。

EMC vs Big Blue

imageIBM is still the largest company involved in selling Hadoop products, but it presently suffers from the problem of not having yet announced its official Hadoop distribution. EMC’s Hadoop distributions will be available later this quarter. I noted recently how EMC is following IBM’s lead in acquiring capabilities across the big data stack — from Hadoop to predictive analytics — and today’s news further proves how competitive the two storage heavyweights might become in the analytics space, too.

依然として、IBM も Hadoop プロダクトに関連する巨大企業であるが、これまでにオフィシャル Hadoop ディストリビューションを発表していないという問題に苦しんでいる。EMC の Hadoop ディストリビューションは、この四半期の後半に、入手が可能になるだろう。最近のことだが、Hadoop から予測・分析にまでいたる、ビッグ・データ・スタックをまたぐ領域において、どのようにして EMC は、IBM との差を縮めていくのかと、その点に私は注目していた。そして、今日のニュースにより、この 2人のストレージ巨人が、分析のスペースにおいても、競い合っていく可能性が生じてきた。

IBM isn’t the only big-name vendor that should be worried about EMC’s new Hadoop-heavy plans, though. The EMC Greenplum HD Data Computing Appliance should make appliance makers Oracle and Teradata, as well as analytic database vendors such as HP, ParAccel and others, quite nervous. The appliance is like the existing EMC Greenplum Data Computing Appliance, only it lets customers process Hadoop data within the same system as their Greenplum analytic database. Presently, most analytic databases and appliances integrate with Hadoop, but still suffer from the latency of having to send data over the network from Hadoop clusters to the database and back.

しかし、EMC の新しい Hadoop 戦略を気にする大手ベンダーは、IBM だけではない。 この EMC Greenplum Data Computing Appliance は、Oracle や Teradata といったアプライアンス・メーカーだけではなく、HP や ParAccel といった分析用データベースのベンダーもナーバスにさせる。 このアプライアンスは、既存の EMC Greenplum Data Computing Appliance に似ており、Greenplum 分析データベースとしての同一システム内に配置された、Hadoop によるデータ処理を顧客に提供していく。現時点において、大半の分析データベースとアプライアンスは、Hadoop とインテグレートされているが、Hadoop クラスタからデータベースとバックエンドに、データを転送する際のネットワーク・レイテンシーに誰もが悩んでいる。

IBM already has integrated Hadoop with its other big data tools, including with InfoSphere BigInsights, Watson and Cognos Consumer Insight, and I have to believe a version of its Netezza analytics appliance with Hadoop co-processing will be on the way shortly, possibly in conjunction with its official Hadoop distribution release.

すでに IBM は、ビッグデータ・ツールと Hadoop を統合しており、その戦略には、InfoSphere BigInsights および、WatsonCognos Consumer Insight などが含まれている。 そして、Hadoop 処理系を取り込んだ、Netezza 分析アプライアンスの新バージョンが、まもなくリリースされると信じたいが、それは、オフィシャル Hadoop ディストリビューションのリリースと関連するのかもしれない。

Lonergan also noted that EMC is working closely with VMware, of which EMC is the majority stockholder, on integrating EMC’s Hadoop products with VMware’s virtualization and cloud products, as well as its GemStone distributed database software.

話は戻るが、EMC の子会社である VMware が、この件に関して EMC と緊密に連携していることを、Lonergan は指摘している。つまり、EMC の Hadoop プロダクトを、VMware の仮想化/クラウド・プロダクトを統合するだけではなく、GemStone の分散データベース・ソフトウェアとも統合しようというのだ。

There still will be opportunities for community collaboration among all the open source Hadoop distributions — Cloudera, DataStax Brisk and EMC Greenplum HD Community Edition — but we’ll see how willing they are to work together now that the competition has really heated up. All of a sudden, EMC looks like the strongest Hadoop company going, and everyone else needs to figure out in a hurry how they’ll counter today’s landscape-altering news.

すべてのオープンソース Hadoop ディストリビュータ(Cloudera/DataStax Brisk/EMC Greenplum HD Community Edition)には、コミュニティを協力させる機会が残されているだろう。しかし、ほんとうに競合が激化してきたいま、それらのディストリビュータが、どれほど本気で協調できるのかと思ってしまう。 突然のことだが、EMC が最強の Hadoop カンパニーにみえてきた。 そして他社は、風景を変える今日のニュースへの、早急な対応策が必要になったことを、理解しなければならないだろう。

EMC VMware 艦隊にとって欠けていた、とても重要なピースが、こうもキレイに解決されるとは思ってもいませんでした。 なんというか、お見事な展開で、脱帽ものです。 ーーー __AC Stamp 2



