Agile Cat — in the cloud

Big Data の調査:未来においても Hadoop の支配は続くのか?

Posted in Big Data, Hadoop, On Monday by Agile Cat on June 23, 2014

Big Data and Hadoop: Will Hadoop Continue to Dominate?
http://wp.me/pwo1E-7Ba

By Dick Weisinger – June 19, 2014
http://formtek.com/blog/big-data-and-hadoop-will-hadoop-continue-to-dominate/

_ formtek

When people talk Big Data today, often they’re talking about Hadoop, a technology first created by Doug Cutting in 2005.  Forrester Research says that “Hadoop is unstoppable as its open source roots grow wildly and deeply into enterprises.”

現時点において、人々が Big Data について語るとき、大半の場合、Hadoop の話になる。そのテクノロジーは2005年に Doug Cutting により作り出されたものである。Forrester Research は、「 オープンソースをルーツに持つものが成長し、エンタープライズにも強引に入り込んでくるにつれて、Hadoop も止められないものになる」と発言している

The following are just some of the vendors have built solutions around Hadoop: Amazon Web Services (AWS), Cloudera, Hortonworks, IBM, Intel, MapR Technologies, Microsoft, Pivotal Software, and Teradata.

この流れに従う形で、いくつかのベンダーが、Hadoop に関連するソリューションを構築している。 具体的には、Amazon Web Services (AWS)/Cloudera/Hortonworks/IBM/Intel/MapR Technologies/Microsoft/Pivotal Software/Teradata などの名前が挙げられる。

Analysts like Allied Market Research estimate that the Hadoop market will grow from $2.0 billion in 2013 to $50 billion in 2020.  The forecast includes software, hardware and services.  Today services represent about half of the Hadoop market.  But how realistic are estimates for a product market-size five-years out?

Allied Market Research などのアナリストたちは、Hadoop のマーケットが、2013年の $2.0 billion から、2020年は $50 billion にまで成長すると推定している。

そして、この予測には、ソフトウェア/ハードウェア/サービスが含まれる。 今日の Hadoop マーケットにおいては、サービスの割合が、全体の約半分を占めている。しかし、このマーケットの規模に関する、5年の推定値はというと、どの程度まで現実的なのだろうか?

Forrester ticks off the following four reasons as to why Hadoop is so hot today:

Forrester は、いまの Hadoop がホットな理由として、以下の 4つの理由を挙げている:

  • Provides lower cost storage
  • Based on open source innovation
  • Scales well
  • Provides businesses a way to squeeze profits from their data

Allied Market Research attributes the growth in Hadoop to a strong interest in managing structured and unstructured data and big data analytics.

また、Allied Market Research は、構造化/非構造化データと Big Data 分析の運用において、Hadoop が強い関心を引き寄せているとしている。

But Hadoop is a platform and forecasts about how Hadoop will grow don’t or can’t factor in the appearance of new competing technologies.  Estimates for how technologies will play out six years hence are very difficult to predict.  Consider the effect of the iPad and the fact that the first iPad was sold less than five years ago.   Things can change quickly.  When Big Data is considered as an umbrella category of technologies, it is almost certain to see huge growth between now and 2020, but whether Hadoop will continue to be the center of Big Data in 2020 is less clear.

しかし、Hadoop はプラットフォームであり、また、Hadoop の成長を予測するにあたり、それと競合する新しいテクノロジーを、考慮することは困難である。つまり、これから 6年の間に、どのようなテクノロジーが登場するかと予測することは、きわめて難しいことなのだ。考えて欲しいのは、iPad の出現による変化と、最初に iPad が販売されてから、まだ 5年も経ていないという事実である。すべては、素早く変化していく。Big Data が、テクノロジーの傘下にあると考えた場合、いまから 2020年までの間に、ほぼ確実に大きな成長が見られるだろう。しかし、2020年においても、Hadoop が Big Data の中心に居続けるかというと、明確な根拠があるわけでもない。

James Kobelius, IBM Big Data evangelist, says that “Hadoop’s footprint will continue to grow for some time in the big data arena, especially as the core open-source technologies evolve and enterprises invest more heavily in the technology.  However, Hadoop will be neither the dominant platform nor the architectural centerpiece of most enterprise big data deployments. But that also applies to any other big data platforms, current or emerging, that you might name.”

IBM の Big Data evangelist である James Kobelius は、「 Hadoop の実績は、Big Data という分野において、しばらくの間は成長していくだろう。 とりわけ、コア・オープンソース・テクノロジーが進化し、エンタープライズがテクノロジーに多額の投資を行う世界で、それは顕著になる。しかし、大半のエンタープライズが Big Data をディプロイしていくとき、Hadoop は支配的なプラットフォームではなく、アーキテクチャ上の中心に座ることもないだろう。つまり、いまは名前もない、新しい Big Data プラットフォームの適用もありえるのだ」と、発言している

ーーーーー

Hadoop といえば、その大元は Google の MapReduce になるのですが、Agile_Cat が敬愛する High Scalability の Todd Hoff さんが、「Google Instant では、リアルタイム検索のために MapReduce を排除!」という記事を、2010年 9月の時点で書いていました。 これは、Google がインクリメント・サーチを開始した時期と同じころの話であり、すでに違う世界でチャレンジしているのだなぁ・・・ と関心した記憶が蘇ってきました。 いまの Google 先生はというと、BigQuery というサービスを提供していますが、それと GCE 上の Hadoop の関係など、いったい、どうなっているのでしょうか? いろいろと、興味の尽きないフィールドですね。

ーーーーー

<関連>

IoT の調査: 依然として見えてこない、セキュリティとプライバシーの方向性
Digital Universe の調査: データの生成は、人間からマシンへ、そして先進国から途上国へ
Data Center の調査: 未来のデータセンターは、小型で手元に置かれるものになる
IoT の調査:ベンダーごとの呼び方があるが、やはり IoT は IoT だ!
Cloud Computing の調査:クラウドはオンプレミスを置き換えるものへとシフトしている

Comments Off on Big Data の調査:未来においても Hadoop の支配は続くのか?

ついに、Hadoop for Windows がデビューするらしい

Posted in .Selected, Apache, Big Data, Hadoop, Microsoft by Agile Cat on February 26, 2013

Hortonworks and Microsoft bring open-source Hadoop to Windows
http://wp.me/pwo1E-5GD

By
Barb Darrow – Feb 25, 2013
http://gigaom.com/2013/02/25/hortonworks-and-microsoft-bring-open-source-hadoop-to-windows/

_ Gigaom

Summary: Hortonworks Data Platform for Windows, now in beta, brings Hadoop to Excel and SQL Server (and vice versa.)

Summary: Hortonworks Data Platform for Windows はベータの段階にあるが、Excel と SQL Server に Hadoop をもたらすものとなる(その逆の見方もある)。

ーーーーー

imageThere’s probably no better way to open up big data to the masses than making it accessible and manipulatable — if that’s a word — via Microsoft Excel. And that ability gets closer to reality Monday with the beta release of Hortonworks Data Platform for Windows. The product of a year-old collaboration between Hortonworks and Microsoft is now downloadable.  General availability will come later in the second quarter, said Shawn Connolly, Hortonworks’ VP of corporate strategy,  in an interview.

Big Data を大衆に広めるという話しなら、Microsoft Excel を介して、そこへのアクセスを容易にし、また、操作しやすくする以上に、良い方法は無い。 そして、月曜日の Hortonworks Data Platform for Windows ベータのリリースにより、その機能の実現に近づいた。 Hortonworks と Microsoft による、1年間のコラボレーションの結果が、すでにダウンロードできるようになっている。  その全体が利用可能になるのは、Q2 の広範囲なるだろうと、 Hortonworks の VP of Corporate Strategy である Shawn Connolly が、インタビューに答えている。

The combination should  make it easier to integrate data from SQL Server and Hadoop and to funnel all that into Excel for charting and pivoting and all the tasks Excel is good at, Connolly added.

この組み合わせにより、SQL Server と Hadoop からのデータを統合し、その結果を Excel に流しこむことが容易になる。 そして、Excel の得意とする、作図やピボットといった作業で、それらのデータを利用できる、と Connolly は付け加えている。

imageHe stressed that this means the very same Apache Hadoop distribution will run on Linux and Windows. An analogous Hortonworks Data Platform for Windows Azure is still in the works.

さらに、彼は、同じ Apache Hadoop ディストリビューションが 、Linux と Windows で走ることになると強調している。 それと同様に、Hortonworks Data Platform for Windows Azure  が、開発の途上にある。

Microsoft opted to work with Hortonworks rather than to continue its own “Dryad” project, as GigaOM’s Derrick Harris reported a year ago. Those with long memories will recall this isn’t the first time that Microsoft relied on outside expertise for database work. The guts of early SQL Server came to the company via Sybase.

GigaOM の Derrick Harris が 1年前にレポートしたように、Microsoft は独自の「Dryad」プロジェクトを継続するより、Hortonworks と協調する道を選んだ。 昔のことを知っている人々は、社外のデータベース・エキスパートに Microsoft が依存することは、決して初めてのことではないと、思い出すだろう。 初期の SQL Server は、その内容を、Sybase に依存していたのだ。

The intersection of structured SQL and  unstructured Hadoop universes is indeed a hotspot, as Derrick Harris reported last week, with companies including Hadoop rivals Cloudera and EMC Greenplum all working that fertile terrain. That means Hortonworks/Microsoft face stiff competition. This topic, along with real-time data tracking, will be discussed at GigaOM’s Structure Data conference in New York on March 20-21.

Derrick Harris が先週に取り上げたように、構造化された SQL と、非構造の Hadoop が交わる点は、ほんとうの意味でホット・スポットである。そして、Hadoop のライバルである、Cloudera や EMC Greenplum などが、その興味深い領域に取り組んでいる。 それは、Hortonworks / Microsoft 連合軍が、厳しい戦いに直面することも意味する。 このトピックおよび、リアルタイム・データ・トラッキングは、3月 20-21日に New York で開催される、GigaOM Structure Data カンファレンスで解説される。

Upcoming: Structure:Data, Mar. 20-21, 2013, New York, Register by March 1 and save $200! More upcoming conferences.

Related research

ーーーーー

TAG indexこの Hortonwoks の Hadoop ですが、どのような形で Microsoft がまとめ上げるのか、とても気になっていました。Windows Azure の一部として、クラウドだけに特化するのであれば、Windows へのポーティングは不要です。 しかし、オンプレミスを前提とした、パッケージ化を考えるなら、Windows 版の Hadoop が不可欠です。 まぁ、どちらかをハッキリさせてというより、中庸をめざして、まずは、パッケージ化を進めていくという判断なのでしょう。いずれにせよ、OSS とは言え、Google の頭脳から生まれた Hadoop を、へんな拘りをもたずに、Microsoft が使うというのは、とても良いことだと思います。ac-stamp-232

ーーーーー

<関連>

Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Hadoop 王国は、戦国時代へと 突入する?

 

Comments Off on ついに、Hadoop for Windows がデビューするらしい

Linux を Azure に! OSS のエキスパートを求める Microsoft

Posted in .Selected, Microsoft by Agile Cat on February 1, 2012

Microsoft seeking open-source expert to help put Linux on Azure
http://wp.me/pwo1E-3S3
By
Mary Jo Foley | January 26, 2012
http://www.zdnet.com/blog/microsoft/microsoft-seeking-open-source-expert-to-help-put-linux-on-azure/11741

image

Summary: Microsoft is moving steadily ahead with its plan to enable Linux to run on its Windows Azure cloud platform.

Summary:  Microsoft は Windows Azure 上で、Linux を実行するための計画を、着実に継続している。

As I blogged earlier this month, Microsoft is preparing to enable Linux to run on its Windows Azure cloud platform. A test build of the coming Linux virtual-machine capability is slated for March, according to my contacts.

今月の初めに、私がブログ・ポストしたように、Windows Azure クラウド・プラットフォーム上で Linux を実行できるよう、Microsoft は準備を進めている。 私のコンタクト先によると、Linux 仮想マシンのテスト・ビルドが、この 3月に計画されているという。

For those still doubting this is on the Microsoft roadmap, I’ve got a new piece of evidence. A contact of mine provided me with a link to a Microsoft job posting for a software development engineer at Microsoft that calls for some serious Linux credentials.

こうした、Microsoft のロードマップが信じられないという人のために、新しい証明を提供したい。 その情報筋から私が得たのは、Microsoft におけるソフトウェア開発エンジニアとして、Linux の確かなスキルを要求するという、Microsoft ジョブ・ポストへのリンクである。

The job posting states quite plainly that the person the Server and Tools team is seeking will be charged with “Defin(ing) and scop(ing) open source projects designed to enable Linux on Microsoft’s virtualization and cloud platforms.” (Emphasis mine.)

このジョブ・ポストの示すものは、明らかだ。つまり、Server and Tools チームにおける求人は、“Defin(ing) and scop(ing) open source projects designed to enable Linux on Microsoft’s virtualization and cloud platforms” を担当する人材を探すものとなっている。

クリックで拡大 ⇒ 

Here is the pertinent part of the post:

SR Software Development Engineer (SDE) Job
Date: Jan 22, 2012
Location: Redmond, WA, US
Job Category: Software Engineering: Development
Location: Redmond, WA, US
Job ID: 764856-52821
Division: Server & Tools Business

Senior Software Development Engineer/Linux Virtualization

This position requires a proven track record in the open source community.

The Windows Interoperability Team at Microsoft has an immediate opening for a senior software development engineer. The purpose of this position is to become a key member of a highly specialized development team whose mission is to identify, define, scope, implement and drive to completion software projects that promote full, transparent interoperability between Windows and Linux in Microsoft virtual and cloud environments.

The primary responsibilities for this position are the following:

Define and scope open source projects designed to enable Linux on Microsoft’s virtualization and cloud platforms

Work directly with the Linux kernel community to develop Linux device drivers and kernel technology to support Linux on Microsoft platforms

Work with Microsoft product groups to help ensure the design and implementation of Microsoft virtualization and cloud technology will support Linux architectures and runtime paradigms.

image

The qualifications for this Microsoft job, according to the posting, include the ability to:

そのポストによると、今回の Microsoft におけるジョブは、以下のスキルを要求する:

  • Create and implement plans that provide for the testing and quality assurance of software products
  • Write high-quality Linux kernel code in the C programming language and the associated unit tests.
  • Demonstrate an understanding of Linux virtualization methods, approaches and deployment. (Including but not limited to Hyper-V, Xen and KVM)
  • Demonstrate an understanding Linux device driver development and implementation
  • Demonstrate an understanding of the Linux kernel architecture, including kernel debugging and runtime libraries
  • Demonstrate an understanding of Linux networking and TCP/IP stack

 

  • ソフトウェア・プロダクトに関する、試験と品質保証のプランを作成/実施する。
  • 高品質の Linux カーネル・コードをC言語で記述し、それに関連するユニット・テストを実施できる。
  • 仮想化された Linux における、メソッド/アプローチ/ディプロイメントの考え方を例証する(Hyper-V/Xen/KVM を含むが、それには限定されない)。
  • Linux デバイス・ドライバのデプロイメントと実装について、その考え方を例証する。
  • Linux カーネル・アーキテクチャについて、デバッグとランタイム・ライブラリを含めて、その考え方を例証する。
  • Linux のネットワークと TCP/IP スタックについて、その考え方を例証する。

I’ve also heard from another of my contacts Microsoft is holding an infrastructure-as-a-service workshop for partners in the next few weeks that will allow certain independent software vendors to test out a pre-release of the coming persistent virtual machine capability.

また、別の情報筋からによると、Microsoft が数週のうちに、パートナーのための IaaS ワークショップを開催するらしい。それにより、特定の ISV は、新たに登場する persistent virtual machine capability を、試すことが可能になるだろう。

Microsoft officials still are not commenting on anything to do with coming plans for the ability to run Linux on Azure. But The Register reported today that Microsoft has demonstrated in its own labs Red Hat running on Azure.

現時点で Microsoft は、Linux を Azure 上で実行させるという計画について、オフィシャルには何もコメントしていない。 しかし、今日(1/26)の The Register によると、Microsoft は自身のラボにいて、Azure 上で実行される Red Hat の、デモを行ったとレポートされている。

ーーーーー

TAG indexそもそも論になってしまいますが、Windows Azure は PaaS なので、アプリケーション・デベロッパーから .NET は見えても、Windows Server は見えないという理解で良いのでしょうかね? もし、そうなら、Windows Azure よりも Microsoft Azure の方が、なんとなくスッキリしますし、柔軟な戦略がとれますよね。 ちなみに、NIST Cloud Computing  Reference Architecture 500-292 における 「PaaS Cloud Consumer」の定義は、以下のとおりです:

PaaS におけるCloud Consumer は、クラウド環境でホストされるアプリケーションの開発/試験/展開/管理のために、Cloud Provider から提供されるツールを採用し、また、リソースを使用することになる。 PaaS Consumer は、アプリケーション・ソフトウェアを設計・実装する開発者もしくは、 クラウド・ベースの環境でアプリケーションを試用するテスター、クラウドにアプリケーションを展開するディプロイ業者、そして、プラットフォーム上でアプリケーションの性能を調整・監視する、アドミニストレータなどから構成される。 PaaS Consumer は、対象となる PaaS が消費するプロセシング/DBストレージ/ネットワークリソース/プラットフォーム使用時間に応じて、対価を要求されることになる。

昨年の PaaS Summit カンファレンスでは、Microsoft Vice President である Ted Kummert も、Hadoop ベースの Big Data ソリューションを、SQL Azure の一部として提供すると発表しているのですから、Linux も取り込んでいくという方向の修正は、正しいはずだと思います。関連として、クラウドにより OS は死に絶える(要旨)はオススメです。 ーーー ac-stamp-232

ーーーーー

<関連>

Cloud Foundry が .NET をサポートする!
NIST のクラウド定義はスクラップになるべきだ – その理由を説明しよう
MySpace を殺したのは Microsoft ソフトウェア・スタックなのか?
VMware を分析すると、OS を持たない 新しい Microsoft に見えてくる
クラウド・ストレージ の性能 – チャンピオンは Amazon S3 と Microsoft Azure

 

Comments Off on Linux を Azure に! OSS のエキスパートを求める Microsoft

Hadoop 王国は、戦国時代へと 突入する?

Posted in .Selected, Big Data, Hadoop by Agile Cat on October 21, 2011

Hadoop’s civil war: Does it matter who contributes most?
By
Derrick Harris Oct. 7, 2011
http://gigaom.com/cloud/hadoops-civil-war-does-it-matter-who-contributes-most/

_ Gigaom

If you were going to buy a service contract for your open source software, would you prefer your service provider actually be the certifiable authority on that very software? If “yes,” you understand why Cloudera and Hortonworks have been playing a game of oneupsmanship over the past few weeks in an attempt to prove whose contributions to the Apache Hadoop project matter most. However, while reputation matters to both companies, it might not matter as much as fending off encroachments to their common turf.

あなたのオープン・ソース・ソフトウェアのために、サービス契約を結ぼうとするなら、そのサービス・プロバイダが実際に、対象となるソフトウェアのオーソリティとして証明されることを望むだろうか? もし「 Yes 」と答えるなら、Apache Hadoop プロジェクトへの貢献において、数週間にわたって Cloudera と Hortonworks が、どちらが重要な役割を果したかと証明しようとして、火花を散らしていた理由を理解しなければならない。 しかし、当事者たちにとって評判が重要であっても、いつもの商売としての縄張りを守るほどには、重要でことでは無いのかもしれない。

Feature image courtesy of Flickr user aj82 

A few weeks ago, Hortonworks, the Hadoop startup that spun out of Yahoo in June, published a blog post highlighting Yahoo’s — and, by proxy, Hortonworks’ — impressive contributions to the Hadoop code. Early this week, Cloudera CEO Mike Olson countered with gusto, laying out a strong case for why Cloudera’s contributions are just as meaningful, maybe more so. Yesterday, it was Hortonworks CEO Eric Baldeschwieler firing back with even more evidence showing that, nope, Yahoo/Hortonworks is actually the best contributor. The heated textual exchange is just the latest salvo in the always somewhat-acrimonious relationship between Yahoo and Cloudera, but now that Team Yahoo is in Hadoop to make money, he who claims the most expertise might also claim the most revenue.

数週前のことだが(10月初旬)、Hadoop スタートアップである Hortonworks(6月に Yahoo からスピンアウト)は、Hadoop コードに対する素晴らしいコントリビューションを行ったとして、Yahoo にスポットライトを当てたブログを、その代理人としてポストした。そして今週の初めに、今度は Cloudera CEO である Mike Olson が、それ以上に Cloudera の貢献が有意義であるという、揺るぎない主張を並べ立て、自信満々に応じた。さらに 昨日(10/6)には、Hortonworks CEO である Eric Baldeschwieler が、さらに証拠が示しながら反撃していた。 まぁ、実際のところ、Yahoo / Hortonworks のペアが、最大の貢献者なのである。 このヒートアップした文面の交換は、常に緊張感を漂わせていた Yahoo と Cloudera が、互いに攻撃しあうパターンである。しかし、いまの Team Yahoo は、収益性を第一に求めているため、Hadoop に関する知識とノウハウを有する者たちが、さらなる対価を要求することもあり得る。

From Olson’s post ⇒

Hortonworks is betting its entire existence on it. With the company likely not offering its own distribution, Hortonworks will rely almost exclusively on its ability to support the Apache Hadoop code (and perhaps some forthcoming management software) for bringing in customers. This is a risky move.

Hortonworks は、そこに、存在の全てを賭けている。 ただし、同社は自身のディストリビューションを提供しない方針である。顧客に対して持ち込まれる Apache Hadoop コード(今後はマネージメント・ソフトウェアが加わる)をサポートするために、その能力の大半を費やすことになる。これは、リスキーなやり方である。

To make a Linux analogy, Hortonworks is playing the role of a company focused on supporting the official Linux kernel, while Cloudera is left playing the role of Red Hat selling and supporting its own open source, but enterprise-grade, distribution. Maybe Hortonworks should try to be Hadoop’s version of Novell. Whatever you think about the companies’ respective business models, though, it’s clear why reputation matters.

Linux に重ね合せてみると、Hortonworks は オフィシャル Linux カーネルのサポートに焦点を合わせて、その役割を演じる会社である。 それに対して Cloudera は、自社製オープンソースの販売とサポート行う、Red Hat の役割を演じているが、その対象はエンタープライズ・グレードのディストリビューションとなる。 おそらく、Hortonworks は、Novell の Hadoop バージョンになろうとするはずである。それらの会社のビジネス・モデルについて、何を考えるにしても、評判を大切にする理由は明確である。

From Baldeschwieler’s post ⇒

However, I’ve been told by a couple people deeply involved in the big data world that perhaps Hortonworks and Cloudera would be better served if they spent their energies worrying about a common enemy by the name of MapR. MapR is the Hadoop startup that has replaced the Hadoop Distributed File System with its own file system that it claims far outperforms HDFS and is much more reliable, and that already has a major OEM partner in EMC.

しかし、Big Data の世界に深く関わっている人々の話によると、Hortonworks と Cloudera が、彼らの共通の敵である MapR に対抗するために、そのエネルギーを費やすなら、さらに良いサービスを提供する可能性があるという。 MapR は Hadoop のスタートアップであるが、Hadoop Distributed File System を自身のファイル・システムで置き換える。それにより、HDFS を凌駕し、さらなる信頼性を提供すると主張するが、すでに、EMC というメジャーな OEM パートナーを有している。

Ryan Rawson, director of engineering at Drawn to Scale and chief an architect for working on HBase, told me that he’s very impressed with MapR and that it could prove very disruptive in a Hadoop space that has thus far been dominated by Cloudera and core Apache. “The MapR guys definitely have a better architecture [than HDFS],” he said, with significant performance increases to match.

Drawn to Scale の director of engineering であり、HBase の architect でもある Ryan Rawson は、MapR に感銘を受けていると話してくれた。そして、これまでのところ、Cloudera と Apache が支配してきた Hadoop の領域において、きわめて破壊的な存在であることが証明されるという。 「MapR は、HDFS よりも明らかに優れたアーキテクチャを有し」、また、パフォーマンスを大幅に向上させていると、彼は発言している。

Rawson’s rationale for finding such promise in MapR is hard to argue with. As he noted, it’s not “garage hobbyists” that are building out large Hadoop clusters, but real companies doing real business. If MapR’s file system outperforms HDFS by 3x, that might mean one-third the hardware investment and fewer management hassles. These things matter, he said, and everyone knows that there’s no such thing as a free lunch: even if they give away the software, Cloudera and Hortonworks still sell products in the form of services.

MapR の将来性を見つけ出すという、Rawson の理論的な根拠を説明することは難しい。 彼が指摘したように、MapR はリアルなビジネスを展開する現実の企業であり、大規模な Hadoop クラスタを作るだけの「ガレージ・ホビースト」ではない。 MapR のファイル・システムが、HDFS に対して 3倍の性能を持つなら、そのためのハードウェア投資は 1/3 となり、マネージメントの煩雑さも低減するだろう。 タダより高いものは無いというが、その点が重要だと、彼は言う。たとえ、ソフトウェアを提供するといっても、Cloudera と Hortonworks は依然として、サービスという形態でプロダクトを販売している。

It’s not just MapR that’s trying to get a piece of Apache Hadoop’s big data market share, either. As I explained earlier this week, there are and will continute to be alternative big data platforms that might start looking more appealing to customers if Hadoop fails to meet their expectations.

Apache Hadoop の  Big Data マーケットから、いくばくかのシェアを得ようとしているのは、MapR だけではない。 今週の初めに説明したように、もし Hadoop が顧客の期待に応えられないなら、その心を惹きつけようと狙っている、Big Data の代案は存在するし、これからも継続し続ける。

The Apache Hadoop community, led for the most part by Hortonworks and Cloudera, has some major improvements in the works that will help it address many of its criticisms, but they’re not here yet. Does it matter which company drives the code and patches for those improvements? Yes, it does. But maybe not as much as burying the hatchet and making sure the Apache Hadoop they both rely on remains worth using.

Apache Hadoop コミュニティは、その大部分を Hortonworks と Cloudera によりリードされ、数多くの批判に取り組むために尽力してきたが、答えを出すには早すぎる。それらの改良のためのコードとパッチを、どの会社が促進するのかという点が、はたして重要だろうか? いや、重要なのだ。 ただし、手斧を買い求める必要もなく、両社は依存する Apache Hadoop の価値を、確実に活用し続けることになる。

Related research and analysis from GigaOM Pro:

 

 

 

ーーーーー

TAG indexこのコンテントが、Gigaom にポストされた直後に [ Microsoft のOSS ベースのクラウド・サービス ] が発表されたわけですが、ここで説明されている背景と重ね合わせると、Hortonworks の判断も理解できます。 Hadoop といえば Cloudera というパターンから、多様なプロバイダーが競い合う世界へと、このマーケット全体が、移行しつつあるように思えます。 ーーー __AC Stamp 2

ーーーーー

<関連>

クラウドで Big Data をハンドリングする 6 社の事例
Yahoo! から派生した Hortonworks が 次期 Hadoop を語る
Twitter が提供する、Hadoop ライクな OSS とは?
Facebook は 30 P Bytes の Hadoop HDFS を Oregon へ移動
Microsoft は Azure のために、Dryad 以外の Hadoop 対抗をリリースする

 

Comments Off on Hadoop 王国は、戦国時代へと 突入する?

Microsoft が発表した、OSS ベースのクラウド・サービスとは?

Posted in .Selected, Big Data, Hadoop, James Hamilton, Microsoft by Agile Cat on October 14, 2011

Microsoft Announces Open Source based Cloud Service
Thursday, October 13, 2011
http://perspectives.mvdirona.com/2011/10/13/MicrosoftAnnouncesOpenSourceBasedCloudService.aspx

ーーーーー

image

We see press releases go by all the time and most of them deserve the yawn they get. But, one caught my interest yesterday. At the PASS Summit conference Microsoft Vice President Ted Kummert announced that Microsoft will be offering a big data solution based upon Hadoop as part of SQL Azure. From the Microsoft press release, “Kummert also announced new investments to help customers manage big data, including an Apache Hadoop-based distribution for Windows Server and Windows Azure and a strategic partnership with Hortonworks Inc.”

私たちが目にするプレス・リリースは、その大半が退屈なものである。 しかし、昨日のことだが、とても興味深いものを見つけた。 PaaS Summit カンファレンスで、Microsoft Vice President である Ted Kummertが、Hadoop ベースの Big Data ソリューションを、SQL Azure の一部として提供すると発表したのだ。 その、Microsoft のプレスリリースによると、「 Kummert のアナウンスには、Windows Server と Windows Azure での、Apache Hadoop ベース・ディストリビューションと、Hortonworks との戦略的パートナーシップが含まれており、Big Data を取り扱う顧客を支援するための、新たな投資が行われる」とされる。

Clearly this is a major win for the early startup Hortonworks. Hortonworks is a spin out of Yahoo! and includes many of the core contributors to the Apache Hadoop distribution: Hortonwoks Taking Hadoop to Next Level.

明らかなことは、スタートアップである Hortonworks に、大きな成功がもたらされることだ。 Hortonworks は Yahoo! からのスピンアウトであり、また、Apache Hadoop ディストリビューションにおけるコア・コントリビュータである: Hortonwoks Taking Hadoop to Next Level

imageThis announcement is also a big win for the MapReduce processing model. First invented at Google and published in MapReduce: Simplified Data Processing on Large Clusters. The Apache Hadoop distribution is an open source implementation of MapReduce. Hadoop is incredibly widely used with Yahoo! running more than 40,000 nodes of Hadoop with their biggest single cluster now at 4,500 servers. Facebook runs a 1,100 node cluster and a second 300 node cluster. Linked in runs many clusters including deployments of 1,200, 580, and 120 nodes. See the Hadoop Powered By Page for many more examples.

さらに、このアナウンスメントは、MapReduce プロセシング・モデルにとっての、大きな勝利を意味する。 最初に Google で考案され、そして MapReduce として提供された:Simplified Data Processing on Large Clusters 。 つまり、Apache Hadoop のディストリビューションは、MapReduce のオープンソース実装である。 Hadoop は、Yahoo! において、きわめて広範囲で利用されている。いまでは、40,000 以上のノードが実行され、最大のシングル・クラスタは 4,500 サーバーにまで至っている。 また、Facebook は、1,100 ノードのクラスタと、300 ノードクラスタを運用している。さらに、LinkedIn も、1,200/580/120 のノードのディプロイメントを含めて、多数のクラスタを実行している。その他の、多数の事例に関しては、Hadoop Powered By Page を参照して欲しい。

In the cloud, AWS began offering Elastic MapReduce back in early 2009 and has been expanding the features supported by this offering steadily over the last couple of years adding support for Reserved Instances, Spot Instances, and Cluster Compute instances (on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)and support for more regions with EMR available in Northern Virginia, Northern California, Ireland, Singapore, and Tokyo.

クラウドにおいては、2009年の初頭より AWS が Elastic MapReduceの提供を開始し、この 2年の間に、着実に機能を拡張してきた。Reserved Instances や、Spot Instances、Cluster Compute Instances(on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)を追加し、Northern Virginia/Northern California/Ireland/Singapore/Tokyo などのリージョンをサポートしている。

Microsoft expects to have a pre-production (what they refer to as a “community technology Preview”) version of a Hadoop service available by the “end of 2011”. This is interesting for a variety of reasons. First, its more evidence of the broad acceptance and applicability of the MapReduce model. What is even more surprising is that Microsoft has decided in this case to base their MapReduce offering upon open source Hadoop rather than the Microsoft internally developed MapReduce service called Cosmos which is used heavily by the Bing search and advertising teams. The What is Dryad blog entry provides a good description of Cosmos and some of the infrastructure build upon the Cosmos core including Dryad, DryadLINQ, and SCOPE.

Microsoft は「2011年の終わり」までに、Hadoop サービスのプリ・プロダクション・バージョン(彼らの言う “community technology Preview”)を持ちたいと望んでいる。  このことは、さまざまな点で興味深いものである。 第一に、MapReduce モデルが、広範囲で受け入れられ、その適用性が証明されたことになる。  さらに驚くべきことは、Microsoft による MapReduce 提供が、オープンソースである Hadoop ベースで行われることである。つまり、Microsoft が内製し、Bing サーチと広告チームで利用されている、Cosmos という MapReduce サービスを押しのけることになる。 What is Dryad ブログのエントリーには、Cosmos に関する丁寧な説明と、その上に構築された Dryad/DryadLINQ /SCOPE などの情報が提供されている。

As surprising as it is to see Microsoft planning to offer MapReduce based upon open source rather than upon the internally developed and heavily used Cosmos platform, it’s even more surprising that they hope to contribute changes back to the open source community saying “Microsoft will work closely with the Hadoop community and propose contributions back to the Apache Software Foundation and the Hadoop project.”

つまり、Microsoft 内部で開発され、各部門で利用されている Cosmos プラットフォームよりも、オープンソース・ベースのMapReduce の提供を計画している点は、驚くべきことである。そして、「Microsoft は Hadoop コミュニティと緊密に作業を進め、Apache Software Foundation と Hadoop Project に対してコントリビュートシていく」と言い、そこで得られた成果を、オープンソース・コミュニティに戻していきたいとしている点に、さらに驚かされる。

· Microsoft Press Release: Microsoft Expands Data Platform
· Hortonsworks Press Release: Hortonworks to Extend Apache Hadoop to Windows Users
· Hortonworks Blog Entry: Bringing Apache Hadoop to Windows

Past MapReduce postings on Perspectives:

· MapReduce in CACM
· MapReduce: A Minor Step Forward
· Hadoop Summit 2010
· Hadoop Summit 2008
· Hadoop Wins TeraSort
· Google MapReduce Wins TeraSort
· HadoopDB: MapReduce over Relational Data
· Hortonworks Taking Hadoop to Next Level

James Hamilton

e: jrh@mvdirona.com
w: http://www.mvdirona.com
b: http://blog.mvdirona.com / http://perspectives.mvdirona.com

ーーーーー

TAG index昨年の夏に Ray Ozzie が去り、秋には Bob Muglia を解任してしまい、大事な時期に空白の数カ月をもたらしてしまった Microsoft ですが、久々に良いニュースが聞けて嬉しいですね。 また、最初の Hadoop World が開催されてから( 3回目の Hadoop World NYC は11月)、わずか 2年で、Hadoop も重要なポジションを確立しましたね。そちらの側から見ても、とても嬉しいニュースです。 なお、文中でも参照している Hortonworks に関する記事は、<関連>の先頭にありますので、よろしければ、ご参照ください。ーーー __AC Stamp 2

ーーーーー

<関連>

Yahoo! から派生した Hortonworks が 次期 Hadoop を語る by J.H.
Big Data を探せ! アメリカの 5つの具体的な事例とは?
クラウドで Big Data をハンドリングする 6 社の事例
OpenFlow と Big Data の 深い関係について
HP が $10B で 買収する Autonomy は、Big Data のスペシャリスト?

 

Yahoo! から派生した Hortonworks が 次期 Hadoop を語る by J.H.

Posted in .Selected, Hadoop by Agile Cat on August 24, 2011

Hortonworks Taking Hadoop to Next Level
Tuesday, August 16, 2011
http://perspectives.mvdirona.com/2011/08/17/HortonworksTakingHadoopToNextLevel.aspx

image

I got a chance to chat with Eric Baldeschwieler while he was visiting Seattle a couple of weeks back and catch up on what’s happening in the Hadoop world at Yahoo and beyond. Eric recently started Hortonworks whose tag line is “architecting the future of big data.” I’ve known Eric for years when he led the Hadoop team at Yahoo! most recently as VP of Hadoop Engineering. It was Eric’s team at Yahoo that contributed much of the code in Hadoop, Pig, and ZooKeeper.

2週間ほど前に Eric Baldeschwieler が Seattle を訪れたとき、話しをするというチャンスを得た。そして、Yahoo や 他の企業における Hadoop の世界で、起こっていることに追いつくことができた。最近になって Hortonworks を立ち上げた Eric のスローガンは、「 Big Data の未来を構築する」 である。 私は Eric に対して、Yahoo! で何年もにわたり Hadoop チームを引っぱり、Hadoop Engineering の VP として活躍してきたと認識している。Hadoop や、Pig、ZooKeeper などに多数のコードの提供したのは、他ならぬ Eric の Yahoo のチームである。

imageMany of that same group form the core of Hortonworks whose mission is revolutionize and commoditize the storage and processing of big data via open source. Hortonworks continues to supply Hadoop engineering to Yahoo! And Yahoo! Is a key investor in Hortonworks along with Benchmark Capital. Hortonworks intends to continue to leverage the large Yahoo! development, test, and operations team.  Yahoo! has over 1,000 Hadoop users and are running Hadoop over many clusters the largest of which was 4,000 nodes back in 2010. Hortonworks will be providing level 3 support for Yahoo! Engineering.

そして Yahoo のときと同様に、数多くのグループが Hortonworks のコアを形つくっているが、彼らのミッションは、ストレージと Big Data をオープンソースを介して実現し、革命と共有をもたらすことである。 Hortonworks は Yahoo! に対して、Hadoop エンジニアリングを継続して供給している。そして Yahoo! は、Benchmark Capital と伴に、Hortonworks に大きな投資を行っている。 Hortonworks は意図的に、Yahoo! における大規模な開発/テスト/運用のチームを活性化させている。  Yahoo! には 1,000人以上の Hadoop ユーザーがおり、2010年の時点で 4,000 ノードあったという、大量のクラスタ上で Hadoop を実行している。 Hortonworks は Yahoo! Engineering に対して、Level 3 のサポートを提供していくだろう。

From Eric slides at the 2011 Hadoop summit, Hortonworks objectives:

2011 Hadoop Summit における Eric のスライドから、Hortonworks の目的を拾い出してみた:

Make Apache Hadoop projects easier to install, manage & use
− Regular sustaining releases
− Compiled code for each project (e.g. RPMs)
− Testing at scale

Make Apache Hadoop more robust
− Performance gains
− High availability− Administration & monitoring

Make Apache Hadoop easier to integrate & extend
− Open APIs for extension & experimentation

Hortonworks Technology Roadmap:

Hortonworks のテクノロジー・ロードマップ:

· Phase 1: Making Hadoop Accessible (2011)
o Release the most stable Hadoop version ever
o Release directly usable code via Apache (RPMs, debs,…)
o Frequent sustaining releases off of the stable branches

· Phase 2: Next Generation Apache Hadoop (2012)
o Address key product gaps (Hbase support, HA, Management, …)
o Enable community and partner innovation via modular architecture & open APIs
o Work with community to define integrated stack

Next generation Apache Hadoop:

そして、次世代 Apache Hadoop について:

· Core
o HDFS Federation
o Next Gen MapReduce
o New Write Pipeline (HBase support)
o HA (no SPOF) and Wire compatibility

· Data – HCatalog 0.3
o Pig, Hive, MapReduce and Streaming as clients
o HDFS and HBase as storage systems
o Performance and storage improvements

· Management & Ease of use
o All components fully tested and deployable as a stack
o Stack installation and centralized config management
o REST and GUI for user tasks

Eric’s presentation from Hadoop Summit 2011 where he gave the keynote: Hortonworks: Architecting the Future of Big Data

Hadoop Summit 2011 における Eric のプレゼンテーションは、このキーノートとなる: Hortonworks: Architecting the Future of Big Data

James Hamilton
e: jrh@mvdirona.com
w:
http://www.mvdirona.com
b: http://blog.mvdirona.com / http://perspectives.mvdirona.com

ーーーーー

ここまで Hadoop を育ててきたとも言える Yahoo! ですが、様々な理由により、こうして Hortonworks が誕生したのでしょう。 がんばれ Eric、がんばれ Hadoop です。 ーーー ac-stamp-21

ーーーーー

<関連>

Twitter が提供する、Hadoop ライクな OSS とは?
Facebook は 30 P Bytes の HDFS を、どのようにして Oregon へ移動したのか
Hadoop ビジネスで、EMC が仕掛ける大勝負とは?
Asakusa 報道特集 – Hadoop を用いたバッチ・フレームワーク

Comments Off on Yahoo! から派生した Hortonworks が 次期 Hadoop を語る by J.H.

%d bloggers like this: