ついに、Hadoop for Windows がデビューするらしい
Hortonworks and Microsoft bring open-source Hadoop to Windows
http://wp.me/pwo1E-5GD
By Barb Darrow – Feb 25, 2013
http://gigaom.com/2013/02/25/hortonworks-and-microsoft-bring-open-source-hadoop-to-windows/
Summary: Hortonworks Data Platform for Windows, now in beta, brings Hadoop to Excel and SQL Server (and vice versa.)
Summary: Hortonworks Data Platform for Windows はベータの段階にあるが、Excel と SQL Server に Hadoop をもたらすものとなる(その逆の見方もある)。
ーーーーー
There’s probably no better way to open up big data to the masses than making it accessible and manipulatable — if that’s a word — via Microsoft Excel. And that ability gets closer to reality Monday with the beta release of Hortonworks Data Platform for Windows. The product of a year-old collaboration between Hortonworks and Microsoft is now downloadable. General availability will come later in the second quarter, said Shawn Connolly, Hortonworks’ VP of corporate strategy, in an interview.
Big Data を大衆に広めるという話しなら、Microsoft Excel を介して、そこへのアクセスを容易にし、また、操作しやすくする以上に、良い方法は無い。 そして、月曜日の Hortonworks Data Platform for Windows ベータのリリースにより、その機能の実現に近づいた。 Hortonworks と Microsoft による、1年間のコラボレーションの結果が、すでにダウンロードできるようになっている。 その全体が利用可能になるのは、Q2 の広範囲なるだろうと、 Hortonworks の VP of Corporate Strategy である Shawn Connolly が、インタビューに答えている。
The combination should make it easier to integrate data from SQL Server and Hadoop and to funnel all that into Excel for charting and pivoting and all the tasks Excel is good at, Connolly added.
この組み合わせにより、SQL Server と Hadoop からのデータを統合し、その結果を Excel に流しこむことが容易になる。 そして、Excel の得意とする、作図やピボットといった作業で、それらのデータを利用できる、と Connolly は付け加えている。
He stressed that this means the very same Apache Hadoop distribution will run on Linux and Windows. An analogous Hortonworks Data Platform for Windows Azure is still in the works.
さらに、彼は、同じ Apache Hadoop ディストリビューションが 、Linux と Windows で走ることになると強調している。 それと同様に、Hortonworks Data Platform for Windows Azure が、開発の途上にある。
Microsoft opted to work with Hortonworks rather than to continue its own “Dryad” project, as GigaOM’s Derrick Harris reported a year ago. Those with long memories will recall this isn’t the first time that Microsoft relied on outside expertise for database work. The guts of early SQL Server came to the company via Sybase.
GigaOM の Derrick Harris が 1年前にレポートしたように、Microsoft は独自の「Dryad」プロジェクトを継続するより、Hortonworks と協調する道を選んだ。 昔のことを知っている人々は、社外のデータベース・エキスパートに Microsoft が依存することは、決して初めてのことではないと、思い出すだろう。 初期の SQL Server は、その内容を、Sybase に依存していたのだ。
The intersection of structured SQL and unstructured Hadoop universes is indeed a hotspot, as Derrick Harris reported last week, with companies including Hadoop rivals Cloudera and EMC Greenplum all working that fertile terrain. That means Hortonworks/Microsoft face stiff competition. This topic, along with real-time data tracking, will be discussed at GigaOM’s Structure Data conference in New York on March 20-21.
Derrick Harris が先週に取り上げたように、構造化された SQL と、非構造の Hadoop が交わる点は、ほんとうの意味でホット・スポットである。そして、Hadoop のライバルである、Cloudera や EMC Greenplum などが、その興味深い領域に取り組んでいる。 それは、Hortonworks / Microsoft 連合軍が、厳しい戦いに直面することも意味する。 このトピックおよび、リアルタイム・データ・トラッキングは、3月 20-21日に New York で開催される、GigaOM Structure Data カンファレンスで解説される。
Upcoming: Structure:Data, Mar. 20-21, 2013, New York, Register by March 1 and save $200! More upcoming conferences.
Related research
- Takeaways from the second quarter in cloud and data July 2012
- The importance of putting the U and I in visualization May 2012
- A near-term outlook for big data March 2012
ーーーーー
この Hortonwoks の Hadoop ですが、どのような形で Microsoft がまとめ上げるのか、とても気になっていました。Windows Azure の一部として、クラウドだけに特化するのであれば、Windows へのポーティングは不要です。 しかし、オンプレミスを前提とした、パッケージ化を考えるなら、Windows 版の Hadoop が不可欠です。 まぁ、どちらかをハッキリさせてというより、中庸をめざして、まずは、パッケージ化を進めていくという判断なのでしょう。いずれにせよ、OSS とは言え、Google の頭脳から生まれた Hadoop を、へんな拘りをもたずに、Microsoft が使うというのは、とても良いことだと思います。![]()
ーーーーー
<関連>
Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Hadoop 王国は、戦国時代へと 突入する?
みんなの先生 James Hamilton 特集
Agile_Cat にポリシーがあるなら、大きく影響されているはず・・・
http://wp.me/pwo1E-5j9
James Hamilton という人を知ったのは、2009年の春のことです。 とある仕事の流れの中で、アメリカのデータセンター事情を調べることになり、ヤミクモに Google で検索していたら、彼のブログに辿り着いたのです。 そして、『 RDBMS Losing Workloads in the Cloud 』を紹介したのですが、振り返ってみれば、このポストが、その後の Agile_Cat の方向性を定めたことになります。日本語のタイトルは 『 役割を減じる Cloud での RDBMS 』 にしました。
たった数枚のスライドで構成されるブログ・ポストですが、スケールという面からみて、これまでのエンタープライズ・サーバーの延長線上にクラウドは成立せず、新たな角度からのアプローチが必要という、いまでは常識になっていることを、ハッキリと Agile_Cat に伝えてくれたのが、このポストなのです。
そして、その年の秋には、NYC で開催された Hadoop World に行く事になり、いわゆる Big Data の最前線を覗き見ることができました。 いま考えてみると、James Hamilton さんのブログを見なければ、NYC へ行く事もなかったでしょうし、その時に知り合った、いまの仕事仲間の人たちとも、ご縁がなかったことになります。 う~ん、どう考えても、Agile_Cat の恩人ですね! ![]()
2010年には、彼の重要な論文である 『 Architecture for Modular Data Centers 』を、ITMedia から出してもらいました。Agile_Cat などというブログではなく、大手のメディアに紹介して欲しかったのです。日本語のマトメ・ページは、こちらになります。
・・・というわけで、前置きが長くなりましたが、James Hamilton 特集として、以下をポストをリスト・アップしました。 時間が経っている割には、訳せたポストが少ないのですが、それぞれの内容が、とても濃いというのが、その理由なのかもしれません。 お時間のあるときに、1本、1本、ぜひ、ゆっくりと お読みください。
Jan 17, 2010: プライベート・クラウドに未来はない
Mar 9, 2010: イベンチュアル・コンシステンシーはお好き?
Apr 14, 2010: Stonebraker と CAP Theorem と Databases
May 31, 2010: Blackberry のクラウドを探る
Nov 21, 2010: 46MW を湖水で冷却し PUE 1.1 :アルプスの巨大 DC
Dec 22, 2010: GPGPU を用いたソートについて考える
Jun 9, 2011: Amazon データセンターについて
Oct 13, 2011: Microsoft が発表した、OSS クラウド・サービスとは?
Oct 25, 2011: Facebook メッセージを支えるストレージ・インフラを解説
Nov 2, 2011: 効率の良いデータセンター運用のコツとは?
Jan 18, 2012: Amazon DynamoDB の 超弩級 クラウド NoSQL 感覚
Aug 12, 2012: Facebook と Google の サーバー保有台数を推測する
ーーーーー
そんなわけで、James Hamilton 先生に引っ張られるかのように、どんどんとクラウド・インフラの世界に傾いていった Agile_Cat であり、2011年の秋には再び NYC を訪れることになりました。 この時は、Facebook の OpenCompute Summit だったのですが、そのキーノート・スピカーとしてアサインされていたのが、James Hamilton さんだったのです。恐る恐る自己紹介してみると、『 お前が Agile_Cat かぁ~ 』という感じで、とても気さくに対応してくれたのが嬉しかったです。 そして、その後も、Sakura Ishikari を紹介してくれたりと、いつも日本を気にかけてくれる James Hamilton 先生には、ほんと、心の底から感謝なのです。
ーーーーー
<関連>
みんなが 期待の Open Cloud 特集
みんなが 注目の SDN/OpenFlow 特集
みんなの 先生 James Hamilton 特集
みんなを 支える Data Center 特集
2012 – 2013 海外 マトメ・ポストを、マトメてみました 62本
泣いて、笑って、驚いて、今年も暮れる WeekEnd 特集
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
Apple’s ‘Mapocalypse’ Highlights Big Data Battle
http://wp.me/pwo1E-54a
October 3, 2012 – Mike Barton
http://www.wired.com/insights/2012/10/mapocalypse-big-data-battle/
The new Maps feature in Apple’s iOS 6 (launched with iPhone 5) has caused Apple a headache, and even led to its CEO apologizing. But more important than Apple’s ego is what the “mapocalypse” means in its bigger battle with Google and its Android platform. Forbes’ Dave Einstein writes in “Google vs. Apple Maps: Big-Data Battle, Cloudy Clash”:
Apple の iOS 6 における、新しい Maps 機能(iPhone 5で導入された)は同社にとって頭痛のタネとなり、また、CEO が謝罪するという事態をもたらした。 しかし Apple にとって、自身のエゴよりも重要なことは、この Mapocalypse が意味するものが、Google および Android プラットフォームとのバトルだという点だ。Forbes の Dave Einstein は、“Google vs. Apple Maps: Big-Data Battle, Cloudy Clash” で、以下のように書いている:
The battleground can be described in just two words: Big Data. Google has it; Apple is scrambling to catch up.
このバトルの背景は、たった 2つの言葉で説明できる。 つまり、Google は Big Data を使いこなし、その一方で Apple は、Big Data を急いで準備している段階にある。
G’day, North America! One example of the iOS 6 “mapocalypse.” Source: theamazingios6maps.tumblr.com
And it’s not just Maps, Einstein writes:
Einstein は、マップ以外についても、以下のように記述している:
Apple would seem to have the edge, but the more consumers use Siri, the more they may realize it’s a work in progress. Like Maps, it’s even being made fun of on TV. Android, meanwhile, has proven remarkably accurate at recognizing human speech and returning accurate answers.
Again, it’s all about Big Data. Speech recognition used to be a novelty for consumers, something to be used if you had Carpal Tunnel or another ailment that made it hard to use a computer.
…Google’s game changer used massive databases to store everything users said while voice-searching on their Android phones. Suddenly speech recognition became a data-driven, cloud service that trained itself. It compared the speech patterns of millions of users, correlated with the content and context of search queries.
Apple は、競争力を持っているように思われるだろうが、そして、多くのユーザーが Siri を使っているだろうが、それが開発途上にあることを知っているのかもしれない。 Maps と同様に、テレビでからかわれさえしている。 その一方で Android は、人間のj話し言葉を認識して、答えを返すことにおいて、驚くほど正確であると証明されている。
繰り返すが、それらすべてが、Big Data に関連する。 これまでの音声認識は、消費者に対するノベルティの類のものであり、もし Carpal Tunnel(手根管症候群)などの病気で、コンピュータを使うことが困難になったときに、使われる何かであった。
しかし、ゲーム・チェンジャーである Google は、Android Phone を使った音声検索の間に、ユザーが発するすべての言葉を、大規模なデータベースにストアするという手法を用いている。 突然に、音声認識がデータ駆動型になり、そのクラウド・サービスは、自身を洗練させ続ける。そこでは、何百万人というユーザのスピーチ・パターンが比較され、サーチ・クエリーの内容と脈略に関連づけられる。
Einstein writes: “Google’s advantage over Apple could easily continue to grow, because much of its product development ties right back into geo-location. From self-driving cars that know where they are to ‘augmented reality’ glasses right out of Philip K. Dick, the company is developing services based on location to help them improve things like Google Maps and Voice Search.”
さらに Einstein は、『 Apple に対する Google のアドバンテージは、そのプロダクト開発の大半が、ゲオ・ロケーションと緊密に結び付けられるため、容易に拡張し続けることが可能だ。 Philip K. Dick の小説にあるように、自身の位置を確認しながら自動操縦するクルマから、「複合現実感」のメガネにいたるまで、Google が開発するサービスは、自らを洗練させるためにロケーションをベースにする。そして、それは、Google Maps も、Voice Search も、同じことなのだ 』と記している。
Google’s Android is the most popular mobile OS and growing like crazy, and you know the story online (read: big data collection in overdrive). This gives the company a growing jump on Apple.
Google の Android は、最も人気の高いモバイル OS であり、また、猛烈な勢いで成長している。そして、あなたはオンラインで、そのストーリーを探せる( 加速している Big Data での記事を読んでほしい)。 それにより、Google は Apple を飛び越せる。
Weigh in: Is Google’s cloud advantage playing out now with Maps and speech recognition? Is this jump on Big Data something Apple and others can ever match? Will Apple and others be forced to accept Google’s Big Data advantage and use Google tools such as Maps?
Weigh in: Google Cloud のアドバンテージは、いまのところ、Maps と音声認識で展開しているのか? この、Big Data(のようなもの)へのジャンプにおいて、Apple などは、そもそも対抗できるのか? Apple などは、Google における Big Data のアドバンテージを受け入れ、また、Maps のような Google ツールを使うことを強いられるのか?
ーーーーー
いまの IT 業界に、イノベーション Big Four を見出すとしたら、Amazon/Apple/Facebook/Google なのだろうと思います。 そして、いわゆる Big Data で遅れを取っているのが Apple であり、それが Apple Maps で問題を起こしているというのは、とても興味深く、また、納得しやすい論点ですね。 ![]()
ーーーーー
<関連>
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Hadoop 王国は、戦国時代へと 突入する?
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Twitter が提供する、MySQL 関連のオープンソースとは
Microsoft が発表した、OSS ベースのクラウド・サービスとは?
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
IDC: Analytics a $51B business by 2016 thanks to big data
http://wp.me/pwo1E-4sK
By Derrick Harris Jul. 11, 2012
http://gigaom.com/cloud/idc-analytics-a-51b-business-by-2016-thanks-to-big-data/
The market for business analytics software grew 14 percent in 2011 and will hit $50.7 billion in revenue by 2016, according to market research firm IDC. And, that segment will grow at a 9.8-percent-a-year clip until then, IDC predicts, driven in part by the current hype around big data.
マーケット・リサーチ会社である IDC によると、ビジネス分析ソフトウェアのマーケットは2011年に 14% の上昇を見せ、また、2016 年までには $50.7 Billion に達するという。そして、このセグメントは、2016年まで 年率で 9.8% を上積みし、また、注目のキーワードである Big Data の周辺で伸びていくと IDC は予測している。
The renewed importance of analytics software comes as the idea of big data has opened companies’ eyes as to the types of insights their data can provide far beyond what traditional analytics efforts yielded. Platform technologies such as Hadoop are letting companies store more data than ever before possible and crunch types of data not traditionally used.
Big Data が企業の視野を広げるという発想が広まるにつれて、分析ソフトウェアの重要性が見直されている。それは、伝統的な解析手法がもたらすものを、はるかに超えた洞察を提供するものとなる。 Hadoop のようなプラットフォーム・テクノロジーが、考えられないほどのデータ量に対応し、これまでは活用できなかった情報を解析していく。
Analytics software is a key component of big data strategies because it’s the stuff that lets companies actually analyze and visualize their data. Vendors in this space are having to retool their products — many products have been around for years, if not decades – for the age of big data. By IDC’s estimates, data warehousing was the fastest growing analytics area in 2011, increasing 15.2 percent, followed by analytics applications at 13.3. percent and BI tools at 13.2 percent.
分析ソフトウェアが Big Data 戦略の主要コンポーネントになるのは、企業におけるデータの解析/視覚化が、それにより実現されるからである。 この領域におけるベンダーたちは、10年とは言わずとも、数年前からのプロダクトを抱え込んでおり、この Big Data の時代に合わせて、それらの再編の迫られている。 IDC の推定によると、2011年のデータ・ウエアハウジングは、15.2% の成長を遂げている。 そして、それに続くのが、分析アプリケーションの 13.3% と、BI ツールの 13.2% である。
By contrast, IDC recently predicted that the almost brand new market for Hadoop software and services will grow at about 60 percent a year until 2016, reaching $812.8 million up from $77 million today. It predicted the market for big data overall (which doesn’t include the higher-level analytics software) will reach $16.9 billion by 2015, up from $3.2 billion in 2010.
それとは対照的に、先日の IDC の調査によると、Hadoop のソフトウェアとサービスにおける、立ち上がったばかりのマーケットは、今日の $77 million から 2016年の $812.8 million へと、年率で 60% の成長が予測されている。また、Big Data 全体のマーケット(ハイレベルな解析ソフトウェアは含まない)は、2010年の $3.2 billion から、2015年には $16.9 billion にいたると予測されている。
Image courtesy of Shutterstock user marekuliasz.
Related research and analysis from GigaOM Pro:
- Infrastructure Q1: Cloud and big data woo enterprises
- Dissecting the data: 5 issues for our digital future
- A near-term outlook for big data
ーーーーー
それにしても、素晴らしいスピードで成長しているデータ分析市場ですね。 先日にポストした、「次世代ビジネスとして、Data as a Platform に注目する」というコンテンツでは、ーーー 企業が収集するデータの価値と、それを生み出すプロダクトにおける従来からの価値について考えるとき、広範囲におよぶ顧客と製品のデータを収集/分析することは、少なくとも、そのプロダクト以上の価値を持つようになる ーーー と指摘されていました。 そして、それを裏付けるかのような、この IDC のレポートですね。 ーーー ![]()
ーーーーー
<関連>
クラウドで Big Data をハンドリングする 6 社の事例
Big Data を探せ! アメリカの 5つの具体的な事例とは?
これまでの Little Data のように、Big Data も価値を作り出すのか?
Big Data の実装へと走る前に、Better Data について考えるべきだ
Hadoop 王国は、戦国時代へと 突入する?
とっても ラブラブな Linux と Big Data
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
How Facebook keeps 100 petabytes of Hadoop data online
http://wp.me/pwo1E-4kV
By Derrick Harris Jun. 13, 2012
http://gigaom.com/cloud/how-facebook-keeps-100-petabytes-of-hadoop-data-online/
It’s no secret that Facebook stores a lot of data — 100 petabytes, in fact — in Hadoop, but how it keeps that data available whenever it needs it isn’t necessarily common knowledge. Today at the Hadoop Summit, however, Facebook Engineer Andrew Ryan highlighted that solution, which Facebook calls AvatarNode. (I’m at Hadoop Summit, but didn’t attend Ryan’s talk; thankfully, he also summarized it in a blog post.)
Facebook が大量のデータをストアしていることは秘密ではないが( 実際には 100 Peta Byte の Hadoop)、それらのデータが必要とされるとき、どのようにして利用できるようにしているのかは、周知の事実ではない。 しかし、今日の Hadoop Summit において、Facebook Engineer である Andrew Ryan は、そのソリューションを、つまり Facebook が AvatarNode と呼んでいるものを明らかにした。 ( Hadoop Summit に来ているが、Ryan のセッションには参加できなかった。しかし、感謝すべきことに、彼はブログ・ポストで要約してくれた)
For those unfamiliar with the availability problem Facebook solved with AvatarNode, here’s the 10,000-foot explanation: The NameNode service in Hadoop’s architecture handles all metadata operations with the Hadoop Distributed File System, but it also just runs on a single node. If that node goes down, so does, for all intents and purposes, Hadoop because nothing that relies on HDFS will run properly.
Facebook が AvatarNode により解決した、可用性の問題につい精通していない人のために、重要な説明がある。 つまり、Hadoop アーキテクチャにおける NameNode サービスは、 Hadoop Distributed File System を用いて全てのメタデータを処理するが、それは単なるシングル・ノード上で走る。したがって、 対象となるノードがダウンするなら、Hadoop もダウンするという現実がある。なぜなら、適切に Hadoop を実行するには、HDFS に頼らざるを得ないからである。
![]()
As Ryan explains, Facebook began building AvatarNode about two years ago (hence its James Cameron-inspired name) and it’s now in production. Put simply, AvatarNode replaces the NameNode with a two-node architecture in which one acts as a standby version if the other goes down. Currently, the failover process is manual but, Ryan writes, “we’re working to improve AvatarNode further and integrate it with a general high-availability framework that will permit unattended, automated, and safe failover.”
Ryan が説明するように、Facebook は 約 2年前から AvatarNode を作り始めてきたが(James Cameron からインスパイヤーされた名前が)、そのプロダクション版が完成したのだ。 シンプルに言って、 AvatarNode は 2ノード・アーキテクチャにより、NameNode を置き換えるものであり、もしノードがダウンしても、もう一方がスタンバイ・バージョンとして機能する。 現時点において、フェイルオーバー処理はマニュアルとなるが、「私たちはさらに AvatarNode を改善し、高可用性のフレームワークと統合していく。 それにより、いまは未対応のフェイルオーバーを、安全かつ自動的に行えるようにする」と、Ryan は書いている。
AvatarNode isn’t a panacea for Hadoop availability, however. Ryan notes that only 10 percent of Facebook’s unplanned downtime would have been preventable with AvatarNode in place, but the architecture will allow Facebook to eliminate an estimated 50 percent of future planned downtime.
しかし、Hadoop の可用性という観点において、AvatarNode は 万能薬ではない。 Ryan が指摘するのは、予期せぬダウンが Facebook に生じたときに、AvatarNode により回避されるものが、たった 10% に過ぎないという点である。しかし、このアーキテクチャは、Facebook における計画的なシステムの停止を、将来において 50% ほどに低減するだろう。
Facebook isn’t the only company to solve this problem, by the way. Appistry (which has since changed its business focus) released a fully distributed file system a couple years ago, and MapR’s Hadoop distribution also provides a highly available file system. In Apache Hadoop version 2.0, which underpins the latest version of Cloudera’s distribution, the NameNode is also eliminated as a single point of failure.
ただし、こうした方式により問題を解決しようとしているのは、なにも Facebook だけではない。 Appistry (ビジネス・フォーカスを変えている)は 2年前に、完全な分散型のファイル・システムをリリースしており、また、MapR の Hadoop ディストリビューションも、高可用性のファイル・システムを提供している。 さらに、Cloudera ディストリビューションの最新バージョンを支える、Apache Hadoop Version 2 においても、NameNode におけるシングル・ポイントの問題は解消されている。
Related research and analysis from GigaOM Pro:
- A near-term outlook for big data
- Dissecting the data: 5 issues for our digital future
- 2012: The Hadoop infrastructure market booms
ーーーーー
久々に Hadoop を取り上げてみました。 HDFS のホワイトペーパーを訳してから、もう 3年が過ぎているのですね。 そして、いまでは、欠かすことのできない、有って当たり前の存在になってきた Hadoop です。 NameNode とシングル・フェイルは、当初から欠点として指摘され、また、それぞれのディストリビュータが取り組んできたようですね。 それにしても、AvatarNode とは、Facebook らしくてカッコイイです
ーーー 
ーーーーー
<関連>
Facebook は 30 P Bytes の Hadoop HDFS を Oregon へ移動
Twitter が提供する、Hadoop ライクな OSS とは?
Hadoop 王国は、戦国時代へと 突入する?
HDFS のスケーラビリティを考察する _1
HDFS のスケーラビリティを考察する _2
HDFS のスケーラビリティを考察する _3
Facebook にストアされた 100 Peta Byte イメージ・データは、写真に換算すると 6,660 億枚になる!
Why 900M isn’t the only number that matters to Facebook
http://wp.me/pwo1E-4gQ
By Derrick Harris May. 17, 2012
http://gigaom.com/cloud/why-900m-isnt-the-only-number-that-matters-to-facebooks-success/
You’ve no doubt heard or read in the past few weeks that Facebook’s hyperinflated valuation heading into its IPO has everything to do with its promise, and very little to do with its actual profits. That much is true.
この数週の間に、IPO へと突き進む Facebook のハイパー・インフレ資産価値について、きっと何かを読んだり聞いたりしてきただろう。しかし、そこに含まれるものは、目論見を実現していくという目標のみであり、また、現実的な利益に関しては、僅かな約束だけがある状況だ。 それは、たしかに、そうなのだ。
But apart from the fact that it has more than 900 million users, a lot of other important numbers never get mentioned. Here are some numbers we know about Facebook’s infrastructure that also speak to its promise as a company that could generate a lot of money.
しかし、Facebook が 9億人以上のユーザーを有しているという事実を別として、その他の重要な数字について言及される機会は、きわめて少ない。 そして、私たちが Facebook のインフラについて知っている若干の数字は、同社における背景を、つまり、莫大な利益を生み出す構造を物語ってくれるのだ。
- 100 petabytes of users’ photos and videos. If it were all photos, that would be more than 666 billion of them.
- 30-plus petabytes of user data in its Hadoop cluster, which is used as a giant data warehouse.
- $1.6–$1.8 billion on planned infrastructure spending in 2012. Google usually spends between $2 billion and $4 billion a year, but bought in more than 10 times Facebook’s revenue in 2011.
- The overall server market was estimated at $52.3 billion in 2011, and Facebook’s Open Compute Project is trying to turn that market on its head by redefining how servers are built and sold at webscale.
- Facebook doesn’t disclose the number of custom-built servers it runs, but by this point it’s far more than the 60,000 estimated in 2010.
- It took Facebook less than 30 days to provision and bring online tens of thousands of servers when it fired up its Prinveville, Ore., data center.
- 100 Peta Bytes のユーザー Photo/Video。 その全てを写真として換算すると、6,660 億枚になる。
- 30 Petra Bytes 以上の Hadoop クラスタ・データ。巨大な、データ・ウェアハウスとして利用されている。
- $1.6–$1.8 billionの、2012年に費やされる予定のインフラ予算。 Google の場合は、$2 billion ~ $4 billion を年間で投資しているが、同社における 2011年の売上は、Facebook の 10倍に達する。
- 2011年における全体的なサーバー市場は、$52.3 billion だと見積もられている。 そして、Facebook の Open Compute Project は、Web スケールを達成するサーバー・ビジネスを再定義することで、このマーケットの向かう先を切り替えようとしている。
- Facebook は、自社で運用しているカスタム・ビルド・サーバーの台数を明らかにしていない。しかし、2010年の時点で、60,000 台以上だと指摘されている。
- Prinveville, Oregon のデータセンターが開所したとき、Facebook は30日以内で、数万台のサーバーをプロビジョニングし、オンラインに接続している。
Is Facebook actually worth $100 billion? Who knows. But it’s a company with so much data and with its finger on the pulse of how web infrastructure works. Managed properly, there’s an awful lot there to work with as Facebook tries to figure out new ways to make a dollar.
実際のところ、Facebook に $100 billion の価値があるのだろうか? 誰が、分かるのだろう。 しかし、Facbeook は膨大なデータを保有している企業であり、また、Web インフラストラクチャの発する鼓動を、その指先で聞き取れる企業でもある。 そこには、適切な管理がある。 そして、Facebook が $1 を稼ぎ出すための、新しい方法を身に付けようするように、とても多くの、取り組むべき課題がある。
Related research and analysis from GigaOM Pro:
- Dissecting the data: 5 issues for our digital future
- Creating value out of machine-driven big data
- A near-term outlook for big data
ーーーーー

久々の、Facebook ウルトラ・スケール話しです。 Oregon の立ち上げに際して、30 P Bytes の Hadoop クラスタが引越ししたというニュースをポストしましたが、フォト+ビデオで 100 P Bytes になるとは、新しい驚きです。 また、文中にもあるように、Open Compute というハードウェアとデータセンターのためのオープンソースを介して、このインフラ・レイヤを刷新しようとする動きも見逃せません。 この IT のコストを大幅に引き下げ、ノウハウを開示し、エコシステムを構築していこうとする、Facebook の試みには大賛成です! ーーー 
ーーーーー
<関連>
Facebook Timeline は、データの非正規化という破壊力で誘う
Facebook が $1 Billion を費やす、データセンター連携の規模を探る
Amazon の James Hamilton が語る、効率の良いデータセンター運用のコツとは?
Facebook が推進する Open Compute Project は、離陸できるのだろうか?
オープンなハードウェアは、データセンターに地殻変動を起こせるのか?
Hadoop 王国は、戦国時代へと 突入する?
Hadoop’s civil war: Does it matter who contributes most?
By Derrick Harris Oct. 7, 2011
http://gigaom.com/cloud/hadoops-civil-war-does-it-matter-who-contributes-most/
If you were going to buy a service contract for your open source software, would you prefer your service provider actually be the certifiable authority on that very software? If “yes,” you understand why Cloudera and Hortonworks have been playing a game of oneupsmanship over the past few weeks in an attempt to prove whose contributions to the Apache Hadoop project matter most. However, while reputation matters to both companies, it might not matter as much as fending off encroachments to their common turf.
あなたのオープン・ソース・ソフトウェアのために、サービス契約を結ぼうとするなら、そのサービス・プロバイダが実際に、対象となるソフトウェアのオーソリティとして証明されることを望むだろうか? もし「 Yes 」と答えるなら、Apache Hadoop プロジェクトへの貢献において、数週間にわたって Cloudera と Hortonworks が、どちらが重要な役割を果したかと証明しようとして、火花を散らしていた理由を理解しなければならない。 しかし、当事者たちにとって評判が重要であっても、いつもの商売としての縄張りを守るほどには、重要でことでは無いのかもしれない。
Feature image courtesy of Flickr user aj82 ⇒
A few weeks ago, Hortonworks, the Hadoop startup that spun out of Yahoo in June, published a blog post highlighting Yahoo’s — and, by proxy, Hortonworks’ — impressive contributions to the Hadoop code. Early this week, Cloudera CEO Mike Olson countered with gusto, laying out a strong case for why Cloudera’s contributions are just as meaningful, maybe more so. Yesterday, it was Hortonworks CEO Eric Baldeschwieler firing back with even more evidence showing that, nope, Yahoo/Hortonworks is actually the best contributor. The heated textual exchange is just the latest salvo in the always somewhat-acrimonious relationship between Yahoo and Cloudera, but now that Team Yahoo is in Hadoop to make money, he who claims the most expertise might also claim the most revenue.
数週前のことだが(10月初旬)、Hadoop スタートアップである Hortonworks(6月に Yahoo からスピンアウト)は、Hadoop コードに対する素晴らしいコントリビューションを行ったとして、Yahoo にスポットライトを当てたブログを、その代理人としてポストした。そして今週の初めに、今度は Cloudera CEO である Mike Olson が、それ以上に Cloudera の貢献が有意義であるという、揺るぎない主張を並べ立て、自信満々に応じた。さらに 昨日(10/6)には、Hortonworks CEO である Eric Baldeschwieler が、さらに証拠が示しながら反撃していた。 まぁ、実際のところ、Yahoo / Hortonworks のペアが、最大の貢献者なのである。 このヒートアップした文面の交換は、常に緊張感を漂わせていた Yahoo と Cloudera が、互いに攻撃しあうパターンである。しかし、いまの Team Yahoo は、収益性を第一に求めているため、Hadoop に関する知識とノウハウを有する者たちが、さらなる対価を要求することもあり得る。
Hortonworks is betting its entire existence on it. With the company likely not offering its own distribution, Hortonworks will rely almost exclusively on its ability to support the Apache Hadoop code (and perhaps some forthcoming management software) for bringing in customers. This is a risky move.
Hortonworks は、そこに、存在の全てを賭けている。 ただし、同社は自身のディストリビューションを提供しない方針である。顧客に対して持ち込まれる Apache Hadoop コード(今後はマネージメント・ソフトウェアが加わる)をサポートするために、その能力の大半を費やすことになる。これは、リスキーなやり方である。
To make a Linux analogy, Hortonworks is playing the role of a company focused on supporting the official Linux kernel, while Cloudera is left playing the role of Red Hat selling and supporting its own open source, but enterprise-grade, distribution. Maybe Hortonworks should try to be Hadoop’s version of Novell. Whatever you think about the companies’ respective business models, though, it’s clear why reputation matters.
Linux に重ね合せてみると、Hortonworks は オフィシャル Linux カーネルのサポートに焦点を合わせて、その役割を演じる会社である。 それに対して Cloudera は、自社製オープンソースの販売とサポート行う、Red Hat の役割を演じているが、その対象はエンタープライズ・グレードのディストリビューションとなる。 おそらく、Hortonworks は、Novell の Hadoop バージョンになろうとするはずである。それらの会社のビジネス・モデルについて、何を考えるにしても、評判を大切にする理由は明確である。
However, I’ve been told by a couple people deeply involved in the big data world that perhaps Hortonworks and Cloudera would be better served if they spent their energies worrying about a common enemy by the name of MapR. MapR is the Hadoop startup that has replaced the Hadoop Distributed File System with its own file system that it claims far outperforms HDFS and is much more reliable, and that already has a major OEM partner in EMC.
しかし、Big Data の世界に深く関わっている人々の話によると、Hortonworks と Cloudera が、彼らの共通の敵である MapR に対抗するために、そのエネルギーを費やすなら、さらに良いサービスを提供する可能性があるという。 MapR は Hadoop のスタートアップであるが、Hadoop Distributed File System を自身のファイル・システムで置き換える。それにより、HDFS を凌駕し、さらなる信頼性を提供すると主張するが、すでに、EMC というメジャーな OEM パートナーを有している。
Ryan Rawson, director of engineering at Drawn to Scale and chief an architect for working on HBase, told me that he’s very impressed with MapR and that it could prove very disruptive in a Hadoop space that has thus far been dominated by Cloudera and core Apache. “The MapR guys definitely have a better architecture [than HDFS],” he said, with significant performance increases to match.
Drawn to Scale の director of engineering であり、HBase の architect でもある Ryan Rawson は、MapR に感銘を受けていると話してくれた。そして、これまでのところ、Cloudera と Apache が支配してきた Hadoop の領域において、きわめて破壊的な存在であることが証明されるという。 「MapR は、HDFS よりも明らかに優れたアーキテクチャを有し」、また、パフォーマンスを大幅に向上させていると、彼は発言している。
Rawson’s rationale for finding such promise in MapR is hard to argue with. As he noted, it’s not “garage hobbyists” that are building out large Hadoop clusters, but real companies doing real business. If MapR’s file system outperforms HDFS by 3x, that might mean one-third the hardware investment and fewer management hassles. These things matter, he said, and everyone knows that there’s no such thing as a free lunch: even if they give away the software, Cloudera and Hortonworks still sell products in the form of services.
MapR の将来性を見つけ出すという、Rawson の理論的な根拠を説明することは難しい。 彼が指摘したように、MapR はリアルなビジネスを展開する現実の企業であり、大規模な Hadoop クラスタを作るだけの「ガレージ・ホビースト」ではない。 MapR のファイル・システムが、HDFS に対して 3倍の性能を持つなら、そのためのハードウェア投資は 1/3 となり、マネージメントの煩雑さも低減するだろう。 タダより高いものは無いというが、その点が重要だと、彼は言う。たとえ、ソフトウェアを提供するといっても、Cloudera と Hortonworks は依然として、サービスという形態でプロダクトを販売している。
It’s not just MapR that’s trying to get a piece of Apache Hadoop’s big data market share, either. As I explained earlier this week, there are and will continute to be alternative big data platforms that might start looking more appealing to customers if Hadoop fails to meet their expectations.
Apache Hadoop の Big Data マーケットから、いくばくかのシェアを得ようとしているのは、MapR だけではない。 今週の初めに説明したように、もし Hadoop が顧客の期待に応えられないなら、その心を惹きつけようと狙っている、Big Data の代案は存在するし、これからも継続し続ける。
The Apache Hadoop community, led for the most part by Hortonworks and Cloudera, has some major improvements in the works that will help it address many of its criticisms, but they’re not here yet. Does it matter which company drives the code and patches for those improvements? Yes, it does. But maybe not as much as burying the hatchet and making sure the Apache Hadoop they both rely on remains worth using.
Apache Hadoop コミュニティは、その大部分を Hortonworks と Cloudera によりリードされ、数多くの批判に取り組むために尽力してきたが、答えを出すには早すぎる。それらの改良のためのコードとパッチを、どの会社が促進するのかという点が、はたして重要だろうか? いや、重要なのだ。 ただし、手斧を買い求める必要もなく、両社は依存する Apache Hadoop の価値を、確実に活用し続けることになる。
Related research and analysis from GigaOM Pro:
- Infrastructure Q1: IaaS Comes Down to Earth; Big Data Takes Flight
- Defining Hadoop: the Players, Technologies and Challenges of 2011
- Putting Big Data to Work: Opportunities for Enterprises
ーーーーー
このコンテントが、Gigaom にポストされた直後に [ Microsoft のOSS ベースのクラウド・サービス ] が発表されたわけですが、ここで説明されている背景と重ね合わせると、Hortonworks の判断も理解できます。 Hadoop といえば Cloudera というパターンから、多様なプロバイダーが競い合う世界へと、このマーケット全体が、移行しつつあるように思えます。 ーーー ![]()
ーーーーー
<関連>
クラウドで Big Data をハンドリングする 6 社の事例
Yahoo! から派生した Hortonworks が 次期 Hadoop を語る
Twitter が提供する、Hadoop ライクな OSS とは?
Facebook は 30 P Bytes の Hadoop HDFS を Oregon へ移動
Microsoft は Azure のために、Dryad 以外の Hadoop 対抗をリリースする
Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Microsoft Announces Open Source based Cloud Service
Thursday, October 13, 2011
http://perspectives.mvdirona.com/2011/10/13/MicrosoftAnnouncesOpenSourceBasedCloudService.aspx
ーーーーー

We see press releases go by all the time and most of them deserve the yawn they get. But, one caught my interest yesterday. At the PASS Summit conference Microsoft Vice President Ted Kummert announced that Microsoft will be offering a big data solution based upon Hadoop as part of SQL Azure. From the Microsoft press release, “Kummert also announced new investments to help customers manage big data, including an Apache Hadoop-based distribution for Windows Server and Windows Azure and a strategic partnership with Hortonworks Inc.”
私たちが目にするプレス・リリースは、その大半が退屈なものである。 しかし、昨日のことだが、とても興味深いものを見つけた。 PaaS Summit カンファレンスで、Microsoft Vice President である Ted Kummertが、Hadoop ベースの Big Data ソリューションを、SQL Azure の一部として提供すると発表したのだ。 その、Microsoft のプレスリリースによると、「 Kummert のアナウンスには、Windows Server と Windows Azure での、Apache Hadoop ベース・ディストリビューションと、Hortonworks との戦略的パートナーシップが含まれており、Big Data を取り扱う顧客を支援するための、新たな投資が行われる」とされる。
Clearly this is a major win for the early startup Hortonworks. Hortonworks is a spin out of Yahoo! and includes many of the core contributors to the Apache Hadoop distribution: Hortonwoks Taking Hadoop to Next Level.
明らかなことは、スタートアップである Hortonworks に、大きな成功がもたらされることだ。 Hortonworks は Yahoo! からのスピンアウトであり、また、Apache Hadoop ディストリビューションにおけるコア・コントリビュータである: Hortonwoks Taking Hadoop to Next Level 。
This announcement is also a big win for the MapReduce processing model. First invented at Google and published in MapReduce: Simplified Data Processing on Large Clusters. The Apache Hadoop distribution is an open source implementation of MapReduce. Hadoop is incredibly widely used with Yahoo! running more than 40,000 nodes of Hadoop with their biggest single cluster now at 4,500 servers. Facebook runs a 1,100 node cluster and a second 300 node cluster. Linked in runs many clusters including deployments of 1,200, 580, and 120 nodes. See the Hadoop Powered By Page for many more examples.
さらに、このアナウンスメントは、MapReduce プロセシング・モデルにとっての、大きな勝利を意味する。 最初に Google で考案され、そして MapReduce として提供された:Simplified Data Processing on Large Clusters 。 つまり、Apache Hadoop のディストリビューションは、MapReduce のオープンソース実装である。 Hadoop は、Yahoo! において、きわめて広範囲で利用されている。いまでは、40,000 以上のノードが実行され、最大のシングル・クラスタは 4,500 サーバーにまで至っている。 また、Facebook は、1,100 ノードのクラスタと、300 ノードクラスタを運用している。さらに、LinkedIn も、1,200/580/120 のノードのディプロイメントを含めて、多数のクラスタを実行している。その他の、多数の事例に関しては、Hadoop Powered By Page を参照して欲しい。
In the cloud, AWS began offering Elastic MapReduce back in early 2009 and has been expanding the features supported by this offering steadily over the last couple of years adding support for Reserved Instances, Spot Instances, and Cluster Compute instances (on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)and support for more regions with EMR available in Northern Virginia, Northern California, Ireland, Singapore, and Tokyo.
クラウドにおいては、2009年の初頭より AWS が Elastic MapReduceの提供を開始し、この 2年の間に、着実に機能を拡張してきた。Reserved Instances や、Spot Instances、Cluster Compute Instances(on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)を追加し、Northern Virginia/Northern California/Ireland/Singapore/Tokyo などのリージョンをサポートしている。
Microsoft expects to have a pre-production (what they refer to as a “community technology Preview”) version of a Hadoop service available by the “end of 2011”. This is interesting for a variety of reasons. First, its more evidence of the broad acceptance and applicability of the MapReduce model. What is even more surprising is that Microsoft has decided in this case to base their MapReduce offering upon open source Hadoop rather than the Microsoft internally developed MapReduce service called Cosmos which is used heavily by the Bing search and advertising teams. The What is Dryad blog entry provides a good description of Cosmos and some of the infrastructure build upon the Cosmos core including Dryad, DryadLINQ, and SCOPE.
Microsoft は「2011年の終わり」までに、Hadoop サービスのプリ・プロダクション・バージョン(彼らの言う “community technology Preview”)を持ちたいと望んでいる。 このことは、さまざまな点で興味深いものである。 第一に、MapReduce モデルが、広範囲で受け入れられ、その適用性が証明されたことになる。 さらに驚くべきことは、Microsoft による MapReduce 提供が、オープンソースである Hadoop ベースで行われることである。つまり、Microsoft が内製し、Bing サーチと広告チームで利用されている、Cosmos という MapReduce サービスを押しのけることになる。 What is Dryad ブログのエントリーには、Cosmos に関する丁寧な説明と、その上に構築された Dryad/DryadLINQ /SCOPE などの情報が提供されている。
As surprising as it is to see Microsoft planning to offer MapReduce based upon open source rather than upon the internally developed and heavily used Cosmos platform, it’s even more surprising that they hope to contribute changes back to the open source community saying “Microsoft will work closely with the Hadoop community and propose contributions back to the Apache Software Foundation and the Hadoop project.”
つまり、Microsoft 内部で開発され、各部門で利用されている Cosmos プラットフォームよりも、オープンソース・ベースのMapReduce の提供を計画している点は、驚くべきことである。そして、「Microsoft は Hadoop コミュニティと緊密に作業を進め、Apache Software Foundation と Hadoop Project に対してコントリビュートシていく」と言い、そこで得られた成果を、オープンソース・コミュニティに戻していきたいとしている点に、さらに驚かされる。
· Microsoft Press Release: Microsoft Expands Data Platform
· Hortonsworks Press Release: Hortonworks to Extend Apache Hadoop to Windows Users
· Hortonworks Blog Entry: Bringing Apache Hadoop to Windows
Past MapReduce postings on Perspectives:
· MapReduce in CACM
· MapReduce: A Minor Step Forward
· Hadoop Summit 2010
· Hadoop Summit 2008
· Hadoop Wins TeraSort
· Google MapReduce Wins TeraSort
· HadoopDB: MapReduce over Relational Data
· Hortonworks Taking Hadoop to Next Level
e: jrh@mvdirona.com
w: http://www.mvdirona.com
b: http://blog.mvdirona.com / http://perspectives.mvdirona.com
ーーーーー
昨年の夏に Ray Ozzie が去り、秋には Bob Muglia を解任してしまい、大事な時期に空白の数カ月をもたらしてしまった Microsoft ですが、久々に良いニュースが聞けて嬉しいですね。 また、最初の Hadoop World が開催されてから( 3回目の Hadoop World NYC は11月)、わずか 2年で、Hadoop も重要なポジションを確立しましたね。そちらの側から見ても、とても嬉しいニュースです。 なお、文中でも参照している Hortonworks に関する記事は、<関連>の先頭にありますので、よろしければ、ご参照ください。ーーー ![]()
ーーーーー
<関連>
Yahoo! から派生した Hortonworks が 次期 Hadoop を語る by J.H.
Big Data を探せ! アメリカの 5つの具体的な事例とは?
クラウドで Big Data をハンドリングする 6 社の事例
OpenFlow と Big Data の 深い関係について
HP が $10B で 買収する Autonomy は、Big Data のスペシャリスト?


























































































leave a comment