Agile Cat — in the cloud

Hadoop と Big Data の調査:企業ユーザーが指摘する問題点は、信頼性/使い易さ/ソリューションの欠落

Posted in Big Data, Hadoop, Research by Agile Cat on February 24, 2014

Hadoop and Big Data: Businesses Frustrated by Lack of Reliable, User-Friendly and Secure Solutions

By Dick Weisinger – February 17th, 2014

_ formtek

While Big Data technologies made big headlines in the tech press in 2013, by the end of the year, the adoption of Big Data technologies across many businesses was only relatively modest. A survey by the SandHill group of a cross-section of global businesses found that:

Big Data テクノロジーは、2013年のハイテク・プレスで大きな話題をさらい、その年末までヘッドラインを賑わしていたが、大多数の企業における Big Data の採用となると、比較的に控えめであった。グローバル・ビジネスを横断的に見ている、SandHill Group の調査では、以下のような論点が見出されている:

  • 44 percent said that they are still in the exploration and education phase of Big Data technologies
  • 16.3 percent are conducting proof of concept trials
  • 11.1 percent are developing their first Hadoop-based applications
  • 回答者の 44% は、Big Data テクノロジーについて、依然として探求と教育の段階にあると述べている
  • 16.3% は、POC(proof of concept)トライアルを実施していると言っている
  • 11.1% は、自身にとって初めての、Hadoop ベース・アプリケーションを開発していると述べている

Not only has adoption been relatively slow, the types of solutions created to date have tended to be relatively mundane — Matt Assay comments that “by far the biggest use of Hadoop to date has been as a poor person’s ETL”.

その採用が、相対的に見て遅れているだけではなく、これまでに開発されたソリューションのタイプも、ありきたりのものあった。 それについて、Matt Assay は、「 これまでの Hadoop の用途において、群を抜いて多いのは、貧しい人々のための ETL(Extract, Transform, Load)である」と述べている

While there is a strong interest in the potential of Big Data from the business side of organizations, many are frustrated by usability issues of the technology.  A survey of business executives taken by 1010data, for example,  found that a majority feel that they are locked out of Big Data technologies like Hadoop.  53 percent said that Big Data solutions aren’t addressing the needs of business users.  49 percent said that current Hadoop-based solutions are too complex and that they’d like to see solutions for Big Data that have “fewer moving parts”, and 62 percent said that in order for them to more effectively use Big Data technologies like Hadoop to solve business problems that they need to be better educated about how the technology works.

ビジネス・サイドの組織からは、Big Data の可能性に強い関心が示されているが、その中の多くが、このテクノロジーのユーザビリティに対して不満を感じている。 1010data が実施した 企業エクゼクティブに対する調査では、その大多数が、Hadoop のような Big Data テクノロジーを、閉鎖的なものだと捉えられていることが分かった。 また、53% は、ビジネス・ユーザーのニーズに取り組んでいる、Big Data ソリューションが存在していないと述べている。 49% は、現在の Hadoop ベース・ソリューションについて、あまりにも複雑すぎると考え、また、Fewer Moving Parts を有する Big Data ソリューションを探したいと言っている。 そして、62% は、ビジネス上の問題を解決するために、Hadoop のような Big Data テクノロジーを用いるには、このテクノロジーが機能する方式について、より適切な教育が必要だと述べている。

Specifically, the 1010data survey considered how the latest Hadoop 2.0 release can improve business solutions.  Hadoop 2.0 includes YARN which allows Hadoop resources to be managed for multiple jobs running across an array of servers.  But business executives aren’t yet convinced that the technology is ready for prime time.  45 percent of them are worried about reliability.  42 percent say that they have major concerns about costs, and 35 percent say that there is still too much low-level coding required to apply the technology to business solutions.  41 percent say that Hadoop is still too new and not yet as stable as other existing technologies.

具体的にいうと、1010data の調査は、Hadoop 2.0 という最新リリースにより、ビジネス·ソリューションを改善する方式を検討するために実施されている。Hadoop 2.0 には YARN が取り込まれているが、それにより、なんらかのサーバー・アレイを横断するかたちで実行される複数のジョブのために、Haddop リソースを管理できるようになる。 しかし、企業エクゼクティブたちは依然として、このテクノロジーが最盛期を迎えるための、準備を整えているとはと確信していない。 そのうちの、45% は信頼性について心配し、42% はコストを最大の懸念としている。 そして、35%は、このテクノロジーをビジネス・ソリューションに適用するには、依然として低レベルのコーディングが必要だと述べている。 さらに 41% は、Hadoop は新し過ぎて、その他の既存テクノロジーのように、安定していないと言っている。

But software developers and integrators are well aware of the problems.  It’s likely that 2014 will see a surge in Big Data product offerings and add-ons that specifically try to create an improved experience for users.

しかし、ソフトウェアのデベトッパーやインテグレーターは、この問題を、よく理解している。そして、2014年には、Big Data のプロダクトとアドオンが急増し、とりわけ、その利用者に対して、改良されたエクスペリエンスが提供されると思われる。


TAG index2009年10月に開催された、最初の Hadoop World NYC から、すでに 4年半の歳月が流れているのですね。 その頃は、もっと早く、Hadoop の事例が増えてくると思っていましたが、エンタープライズ・ユーザーにまで広がるには、まだまだ取り除かれるべき障壁が多いのだと、この記事を訳していて感じました。 いろいろな意味で、ちょっとガッカリする数字が並んではいますが、もう一息で、そのカベも乗り越えられるでしょう。 ガンバレ Hadoop & Big Data です! image



IoT の調査:ビジネスに革命をもたらすテクノロジーではあるが、まだまだ課題が山積みだ
Mobile の調査: 2014年の中小企業は、PC を捨て始めるかもしれない
Enterprise の調査:ここでもソーシャル・ネットワークが 急成長している
Cloud の調査:これからの2年間で、Top-100 プロバイダーの 25% が買収される
Open Data の調査:年間で 500兆円の 経済効果が 見いだせる?

Hadoop 2 がリリースされた : MapReduce から YARN へ移行

Posted in .Selected, Apache, Big Data, Google, Hadoop, MapReduce by Agile Cat on October 17, 2013

Apache Software Foundation unveils Hadoop 2, replacing MapReduce with YARN

Loek Essers, IDG News Service @loekessers – Oct 16, 2013


The Apache Software Foundation unveiled its latest release of its open source data processing program, Hadoop 2. It runs multiple applications simultaneously to enable users to quickly and efficiently leverage data in multiple ways at supercomputing speed, Apache said Wednesday.

Apache Software Foundation が、そのオープンソース・データ処理プログラムである、Hadoop 2 の最新リリースを発表した。水曜日の Apache の説明によると、マルチ・アプリケーションの同時実行が達成されることで、ユーザーは各種の方式を用いて、しかもスーパー・コンピューターの速度で、そのデータを迅速かつ効率よく活用できるようになる。

Apache Hadoop is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It enables organizations to more efficiently and cost-effectively store, process, manage and analyze the growing volumes of data being created and collected every day.

Apache Hadoop は、シンプルなプログラミング·モデルを用いて、しかもコンピュータやクラスタを横断するかたちで、大規模データの分散処理を実現するフレームワークである。それにより、毎日のようにデータを収集/作成していく組織は、増え続ける情報の保存/処理/管理/分析を、効率よく低コストで達成していける。

Hadoop is deployed at enterprise organizations around the globe, including Amazon Web Services, AOL, Apple, eBay, Facebook, Netflix and Hewlett-Packard.

現時点において Hadoop は、Amazon Web Services/AOL/Apple/eBay/Facebook/Netflix/Hewlett-Packard といった、世界中のエンタープライズに展開されている。

The latest version of the platform, released Wednesday, has been more than four years in the making and has a number of new components. Most notable is the addition of YARN, (Yet Another Resource Negotiator), which is a successor to Hadoop’s MapReduce. The new version splits major functions into two separate daemons, with resource management in one, and job scheduling and monitoring in the other.

水曜日にリリースされた、このプラットフォームの最新バージョンは、その製作に 4年以上の歳月をかけ、また、いくつかの新しいコンポーネントを取り込むものとなる。その中でも、最も注目すべきは、Hadoop における MapReduce の後継者となる YARN(Yet Another Resource Negotiator)である。この新バージョンでは、主要な機能を、2つの Deamon に分割している。その 1つは、Resource Management であり、もう 1つは Job Scheduling and Monitoring となる。

Apache Software Foundation

YARN sits on top of the HDFS (Hadoop Distributed File System) and serves as a large-scale, distributed operating system for big data applications, enabling multiple applications to run simultaneously for more efficient support of data throughout its entire lifecycle, Apache said in a news release. Hadoop 2 and YARN gives users the ability to mix batch, interactive and real-time workloads within a stable foundational part of the Hadoop ecosystem, it said.

YARN は HDFS(Hadoop Distributed File System)の上に配置され、Big Data アプリケーションのための、大規模/分散オペレーティング・システムとして機能する。 それにより、ライフサイクル全体を通して、データを効率よくサポートとしていく、マルチ・アプリケーションの同時実行が可能となると、Apache はニュース・リリースで述べている。 そして、Hadoop 2 と YARN がユーザーに提供するものとして、バッチ/インタラクティブ/リアルタイムのワークロードなどを混在させる能力を、Hadoop エコシステムの安定した基盤を用いて実現することを挙げている。

Apache also refers to YARN as MapReduce Version 2. It retains API compatibility with the previous version, and applications written for MapReduce will run on YARN if recompiled, the foundation said.

また、Apache は YARN について、MapReduce の Version 2 だとしている。 つまり、これまでのバージョンとの API 互換を保持し、再コンパイルさえすれば、MapReduce 用のアプリケーションを YARN 上で実行できると、同ファンデーションは述べている。

More than a dozen Apache projects integrate with Hadoop, and ten more are about to follow, Apache said.

1ダース以上の Apache プロジェクトが Hadoop と統合されているが、その大半が、新たなプラットフォームに移行すると、Apache は述べている。

The General Availability (GA) release of Hadoop 2 follows a preview distribution that was released in June, that also included YARN. Apache Hadoop 2 will be released under the Apache License v2.0.

Hadoop 2 の General Availability (GA) リリースは、6月にリリースされたプレビューに、つまり YARN が含まれていたディストリビューションに従うものとなる。なお、Apache Hadoop 2 は、Apache License v2.0 の下でリリースされる。


image Hadoop に関するポストというと、かなり久々のことなのですが、当然のものとして、広く浸透していることの、証明なのかもしれません。 昨年の、Apple Maps 騒動のときに、Wired が 面白い記事をポストしていました。 そこには ーーー このバトルの背景は、たった 2つの言葉で説明できる。 つまり、Google は Big Data を使いこなし、その一方で Apple は、Big Data を急いで準備している段階にある。ーーー という、とても分かりやすい一文が記されていました。そして、Hadoop も、ついに新世代なのですね。 ほんと、期待大です!image



IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Facebook にストアされた 100 PB イメージ・データは、写真にすると 6,660 億枚になる!
ついに、Hadoop for Windows がデビューするらしい
Hadoop 王国は、戦国時代へと 突入する?


クラウドから特許を追放するって、ステキ すぎます Google 先生

Posted in .Selected, Big Data, Data Center Trends, Google, Patent by Agile Cat on October 2, 2013

Google donates 79 more patents to shield the cloud from lawsuits
By Jeff John Roberts – AUG. 8, 2013

_ Gigaom

Summary: Google has taken an important new step in its effort to carve out a space where cloud computing innovators can work without fear of being sued.

Summary: Google は、クラウドにおけるイノベーションが訴訟により妨げられないよう、その空間を切り開くという試みへ向けて、きわめて重要な一歩を踏み出した。


Google is ramping up its campaign to protect the cloud from the sort of nuisance patent lawsuits that have engulfed the smartphone and app-developer industries.

Google は、ある種の厄介な特許の問題から、つまりスマホとアプリの開発者や産業を巻こむ訴訟から、クラウドを保護するためのキャンペーンの手はずを整えている。

photo: alphaspirit

On Thursday, the company designated 79 more patents to be part of its “Open Patent Non-Assertion Pledge,” which amounts to a non-aggression pact under which anyone can use the technology described in the patents — anyone, that is, who doesn’t use patents to attack Google first.

木曜日(8/8)に同社は、Open Patent Non-Assertion Pledge(オープン特許非係争条項)一環として 79 種類以上の特許を指定し、それぞれの特許に記載されたテクノロジーを、誰もが利用できるという非訴訟協定のもとに置くとした。 ただし、Google を最初から攻撃しようとする者は、それらの特許を使用しないだろう。

The news, announced in a blog post, is significant because the patents relate to essential elements of “big data,” which is one the most important fields in technology right now. Google hopes the newly added patents, which it acquired from IBM and CA Technologies, expand the areas of cloud software in which developers can innovate without fear of being sued.

このブログ・ポストで発表されたニュースが重要なのは、それらの特許には Big Data が、つまり、現在のテクノロジーにおける最重要分野に関連する、本質的な要素も含まれるからだ。さらに Google は、IBM と CA Technologies から取得した特許も、ここに加えたいとしている。それによりデベロッパーは、訴訟を恐れることなく、クラウド·ソフトウェア領域におけるイノベーションを拡大できる。

When the company announced the non-aggression pact in March, the pledge applied to just 10 patents related to MapReduce and Hadoop programming models. The new patents, according to a source at Google, cover different areas related to data-center technologies. In particular, they cover methods for operating data centers efficiently and for so-called “alarm monitoring.”

今年の 3月に、同社が非訴訟協定を発表したときは、MapReduce と Hadoop のプログラミング・モデルに関連する、わずか 10 特許に対して、その誓約が適用されていた。Google 内の情報源によると、新たに追加された特許は、データセンター・テクノロジーに関連する、さまざまな分野をカバーするようだ。そして、効率よくデータセンターを運用するための方式や、いわゆる Alarm Monitoring などをカバーする点が、注目を集める。

As we’ve noted before, Google’s non-aggression pact is no magic bullet to stop nuisance cloud-based lawsuits, in part because it provides little deterrent to so-called trolls — shell companies, often backed by lawyers and private investors, that do nothing but acquire old patents in order to file lawsuits.

ただし、以前に指摘したように、Google の非訴訟協定は、厄介なクラウド訴訟を排除できるという特効薬ではなく、トロールと呼ばれる小さな荒らしをもたらす者は止められないだろう。それらのペーパー・カンパニーは、古い特許を取得する以外に何もしないが、弁護士や民間投資家に支えられながら、随所で訴訟を繰り返していく。

But overall, the expanded pact is good news because it promotes the idea of a technological open space in which anyone can use the basic building blocks of cloud computing. A similar open model, in the case of copyright, has already proved essential for developing a wide variety of common software; under the open GNU license model, developers contribute a common pool of code that anyone can use.

しかし、全体を見れば、誰もがクラウド·コンピューティングの基本的なビルディング·ブロックを使用できる、テクノロジー・オープンスペースのアイデアを促進するため、この拡張された協定は朗報である。類似のオープンモデルは(Copyright の範囲において)は、一般的なソフトウェアを幅広く開発するために、不可欠な存在であると、すでに証明されている。つまり、オープン な GNU ライセンス・モデルにしたがい、誰もが利用できるコードが、共有のための枠組みの中にコントリビュートされているのだ。

The Google initiative also coincides with a growing push by tech companies to push back against people who abuse the patent system. These abusers include lawyer Erich Spangenberg, who makes $25 million a year from patent trolling, and boasted to the New York Times about how he “goes thug” on companies that resist his demands.

この、Google の構想は、特許制度を乱用する人々を押し返そうという、ハイテク企業の成長を支える勢力とも一致している。これらの、特許を乱用すると言われる弁護士には、トローリングで $25 million/年を稼ぎ出す Erich Spangenberg も含まれる。なにせ、自身の要求に抵抗する企業を、どうやって脅すのかと、彼は New York Times に自慢しているのだ

In response to the trolling problem, cloud-computing provider Rackspace is putting its money on the line to fight a troll that claims to own basic mobile technology. And social media firm Twitter has created the “Innovator’s Patent Agreement” to assure its engineers that it won’t use their work for future patent trolling.

トローリングの問題に対応するため、クラウド・プロバイダーである Rackspace は、基本的なモバイル・テクノロジーを所有すると主張する、あるトロールと戦うために、すぐにでも使える現金を用意している。また、ソーシャル・メディアの Twitter は、自身のエンジニアたちに対して、彼らの作品を将来的にトローリングなどに使用しないと約束する、Innovator’s Patent Agreement を作成している。

Google says it hopes other companies will also contribute to the pool of patents that form the Open Patent Non-Assertion Pledge.

Google は、他の企業に対しても、Open Patent Non-Assertion Pledge に特許を提供するよう呼びかけている。

Related research



もう、2年前の話になりますが、Google が Motorola の買収へと至るプロセスの中で、Nortel の知的財産権を購入した企業グループは、このようなオープン化の動きを一番恐がっていたのだと思います。 ここで説明する必要もないですが、知的財産の保護は重要であり、また、イノベーションを停滞させるという副作用も持ちます。昨年の Java をめぐる係争で、Oracle の訴えをはねつけた米司法当局も、イノベーションを優先した、ということなのでしょうかね? __AC Stamp 2



Java と Android をめぐる Oracle と Google の争い : API の適正な用法とは?
Google が IBM からの特許取得を拡大 – Oracle への反撃は?
Google は IBM から、1030 個の特許を取得する!
Google Drive をめぐる特許問題と、その背景を考察する
Microsoft のパテント・トローリング戦略とは
Android 特急は、パテント攻撃により脱線してしまうのか?
アメリカ独占禁止法当局が、Nortel の特許売却を調査?
Apple と Google に妥協点はあるのか : Tim と Larry が水面下で協議を継続?
Microsoft と Oracle の提携 : その骨子が明らかになった!
モバイル特許の相関図は 込み入っていて、まるで地下鉄マップのようだ!


ついに、Hadoop for Windows がデビューするらしい

Posted in .Selected, Apache, Big Data, Hadoop, Microsoft by Agile Cat on February 26, 2013

Hortonworks and Microsoft bring open-source Hadoop to Windows

Barb Darrow – Feb 25, 2013

_ Gigaom

Summary: Hortonworks Data Platform for Windows, now in beta, brings Hadoop to Excel and SQL Server (and vice versa.)

Summary: Hortonworks Data Platform for Windows はベータの段階にあるが、Excel と SQL Server に Hadoop をもたらすものとなる(その逆の見方もある)。


imageThere’s probably no better way to open up big data to the masses than making it accessible and manipulatable — if that’s a word — via Microsoft Excel. And that ability gets closer to reality Monday with the beta release of Hortonworks Data Platform for Windows. The product of a year-old collaboration between Hortonworks and Microsoft is now downloadable.  General availability will come later in the second quarter, said Shawn Connolly, Hortonworks’ VP of corporate strategy,  in an interview.

Big Data を大衆に広めるという話しなら、Microsoft Excel を介して、そこへのアクセスを容易にし、また、操作しやすくする以上に、良い方法は無い。 そして、月曜日の Hortonworks Data Platform for Windows ベータのリリースにより、その機能の実現に近づいた。 Hortonworks と Microsoft による、1年間のコラボレーションの結果が、すでにダウンロードできるようになっている。  その全体が利用可能になるのは、Q2 の広範囲なるだろうと、 Hortonworks の VP of Corporate Strategy である Shawn Connolly が、インタビューに答えている。

The combination should  make it easier to integrate data from SQL Server and Hadoop and to funnel all that into Excel for charting and pivoting and all the tasks Excel is good at, Connolly added.

この組み合わせにより、SQL Server と Hadoop からのデータを統合し、その結果を Excel に流しこむことが容易になる。 そして、Excel の得意とする、作図やピボットといった作業で、それらのデータを利用できる、と Connolly は付け加えている。

imageHe stressed that this means the very same Apache Hadoop distribution will run on Linux and Windows. An analogous Hortonworks Data Platform for Windows Azure is still in the works.

さらに、彼は、同じ Apache Hadoop ディストリビューションが 、Linux と Windows で走ることになると強調している。 それと同様に、Hortonworks Data Platform for Windows Azure  が、開発の途上にある。

Microsoft opted to work with Hortonworks rather than to continue its own “Dryad” project, as GigaOM’s Derrick Harris reported a year ago. Those with long memories will recall this isn’t the first time that Microsoft relied on outside expertise for database work. The guts of early SQL Server came to the company via Sybase.

GigaOM の Derrick Harris が 1年前にレポートしたように、Microsoft は独自の「Dryad」プロジェクトを継続するより、Hortonworks と協調する道を選んだ。 昔のことを知っている人々は、社外のデータベース・エキスパートに Microsoft が依存することは、決して初めてのことではないと、思い出すだろう。 初期の SQL Server は、その内容を、Sybase に依存していたのだ。

The intersection of structured SQL and  unstructured Hadoop universes is indeed a hotspot, as Derrick Harris reported last week, with companies including Hadoop rivals Cloudera and EMC Greenplum all working that fertile terrain. That means Hortonworks/Microsoft face stiff competition. This topic, along with real-time data tracking, will be discussed at GigaOM’s Structure Data conference in New York on March 20-21.

Derrick Harris が先週に取り上げたように、構造化された SQL と、非構造の Hadoop が交わる点は、ほんとうの意味でホット・スポットである。そして、Hadoop のライバルである、Cloudera や EMC Greenplum などが、その興味深い領域に取り組んでいる。 それは、Hortonworks / Microsoft 連合軍が、厳しい戦いに直面することも意味する。 このトピックおよび、リアルタイム・データ・トラッキングは、3月 20-21日に New York で開催される、GigaOM Structure Data カンファレンスで解説される。

Upcoming: Structure:Data, Mar. 20-21, 2013, New York, Register by March 1 and save $200! More upcoming conferences.

Related research


TAG indexこの Hortonwoks の Hadoop ですが、どのような形で Microsoft がまとめ上げるのか、とても気になっていました。Windows Azure の一部として、クラウドだけに特化するのであれば、Windows へのポーティングは不要です。 しかし、オンプレミスを前提とした、パッケージ化を考えるなら、Windows 版の Hadoop が不可欠です。 まぁ、どちらかをハッキリさせてというより、中庸をめざして、まずは、パッケージ化を進めていくという判断なのでしょう。いずれにせよ、OSS とは言え、Google の頭脳から生まれた Hadoop を、へんな拘りをもたずに、Microsoft が使うというのは、とても良いことだと思います。ac-stamp-232



Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Hadoop 王国は、戦国時代へと 突入する?


Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない

Posted in .Selected, Apple, Big Data, Google, Hadoop, MapReduce by Agile Cat on October 23, 2012

Apple’s ‘Mapocalypse’ Highlights Big Data Battle
October 3, 2012 –
Mike Barton


The new Maps feature in Apple’s iOS 6 (launched with iPhone 5) has caused Apple a headache, and even led to its CEO apologizing. But more important than Apple’s ego is what the “mapocalypse” means in its bigger battle with Google and its Android platform. Forbes’ Dave Einstein writes in “Google vs. Apple Maps: Big-Data Battle, Cloudy Clash”:

Apple の iOS 6 における、新しい Maps 機能(iPhone 5で導入された)は同社にとって頭痛のタネとなり、また、CEO が謝罪するという事態をもたらした。 しかし Apple にとって、自身のエゴよりも重要なことは、この Mapocalypse が意味するものが、Google および Android プラットフォームとのバトルだという点だ。Forbes の Dave Einstein は、“Google vs. Apple Maps: Big-Data Battle, Cloudy Clash” で、以下のように書いている:

The battleground can be described in just two words: Big Data. Google has it; Apple is scrambling to catch up.

このバトルの背景は、たった 2つの言葉で説明できる。 つまり、Google は Big Data を使いこなし、その一方で Apple は、Big Data を急いで準備している段階にある。

G’day, North America! One example of the iOS 6 “mapocalypse.” Source:

And it’s not just Maps, Einstein writes:

Einstein は、マップ以外についても、以下のように記述している:

Apple would seem to have the edge, but the more consumers use Siri, the more they may realize it’s a work in progress. Like Maps, it’s even being made fun of on TV. Android, meanwhile, has proven remarkably accurate at recognizing human speech and returning accurate answers.

Again, it’s all about Big Data. Speech recognition used to be a novelty for consumers, something to be used if you had Carpal Tunnel or another ailment that made it hard to use a computer.

…Google’s game changer used massive databases to store everything users said while voice-searching on their Android phones. Suddenly speech recognition became a data-driven, cloud service that trained itself. It compared the speech patterns of millions of users, correlated with the content and context of search queries.

Apple は、競争力を持っているように思われるだろうが、そして、多くのユーザーが Siri を使っているだろうが、それが開発途上にあることを知っているのかもしれない。 Maps と同様に、テレビでからかわれさえしている。 その一方で Android は、人間のj話し言葉を認識して、答えを返すことにおいて、驚くほど正確であると証明されている。

繰り返すが、それらすべてが、Big Data に関連する。 これまでの音声認識は、消費者に対するノベルティの類のものであり、もし Carpal Tunnel(手根管症候群)などの病気で、コンピュータを使うことが困難になったときに、使われる何かであった。

しかし、ゲーム・チェンジャーである Google は、Android Phone を使った音声検索の間に、ユザーが発するすべての言葉を、大規模なデータベースにストアするという手法を用いている。 突然に、音声認識がデータ駆動型になり、そのクラウド・サービスは、自身を洗練させ続ける。そこでは、何百万人というユーザのスピーチ・パターンが比較され、サーチ・クエリーの内容と脈略に関連づけられる。

Einstein writes: “Google’s advantage over Apple could easily continue to grow, because much of its product development ties right back into geo-location. From self-driving cars that know where they are to ‘augmented reality’ glasses right out of Philip K. Dick, the company is developing services based on location to help them improve things like Google Maps and Voice Search.”

さらに Einstein は、『 Apple に対する Google のアドバンテージは、そのプロダクト開発の大半が、ゲオ・ロケーションと緊密に結び付けられるため、容易に拡張し続けることが可能だ。 Philip K. Dick の小説にあるように、自身の位置を確認しながら自動操縦するクルマから、「複合現実感」のメガネにいたるまで、Google が開発するサービスは、自らを洗練させるためにロケーションをベースにする。そして、それは、Google Maps も、Voice Search も、同じことなのだ 』と記している

Google’s Android is the most popular mobile OS and growing like crazy, and you know the story online (read: big data collection in overdrive). This gives the company a growing jump on Apple.

Google の Android は、最も人気の高いモバイル OS であり、また、猛烈な勢いで成長している。そして、あなたはオンラインで、そのストーリーを探せる( 加速している Big Data での記事を読んでほしい)。 それにより、Google は Apple を飛び越せる。

Weigh in: Is Google’s cloud advantage playing out now with Maps and speech recognition? Is this jump on Big Data something Apple and others can ever match? Will Apple and others be forced to accept Google’s Big Data advantage and use Google tools such as Maps?

Weigh in:  Google Cloud のアドバンテージは、いまのところ、Maps と音声認識で展開しているのか? この、Big Data(のようなもの)へのジャンプにおいて、Apple などは、そもそも対抗できるのか? Apple などは、Google における Big Data のアドバンテージを受け入れ、また、Maps のような Google ツールを使うことを強いられるのか?


imageいまの IT 業界に、イノベーション Big Four を見出すとしたら、Amazon/Apple/Facebook/Google なのだろうと思います。 そして、いわゆる Big Data で遅れを取っているのが Apple であり、それが Apple Maps で問題を起こしているというのは、とても興味深く、また、納得しやすい論点ですね。 image



IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Hadoop 王国は、戦国時代へと 突入する?
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Twitter が提供する、MySQL 関連のオープンソースとは
Microsoft が発表した、OSS ベースのクラウド・サービスとは?

Microsoft が発表した、OSS ベースのクラウド・サービスとは?

Posted in .Selected, Big Data, Hadoop, James Hamilton, Microsoft by Agile Cat on October 14, 2011

Microsoft Announces Open Source based Cloud Service
Thursday, October 13, 2011



We see press releases go by all the time and most of them deserve the yawn they get. But, one caught my interest yesterday. At the PASS Summit conference Microsoft Vice President Ted Kummert announced that Microsoft will be offering a big data solution based upon Hadoop as part of SQL Azure. From the Microsoft press release, “Kummert also announced new investments to help customers manage big data, including an Apache Hadoop-based distribution for Windows Server and Windows Azure and a strategic partnership with Hortonworks Inc.”

私たちが目にするプレス・リリースは、その大半が退屈なものである。 しかし、昨日のことだが、とても興味深いものを見つけた。 PaaS Summit カンファレンスで、Microsoft Vice President である Ted Kummertが、Hadoop ベースの Big Data ソリューションを、SQL Azure の一部として提供すると発表したのだ。 その、Microsoft のプレスリリースによると、「 Kummert のアナウンスには、Windows Server と Windows Azure での、Apache Hadoop ベース・ディストリビューションと、Hortonworks との戦略的パートナーシップが含まれており、Big Data を取り扱う顧客を支援するための、新たな投資が行われる」とされる。

Clearly this is a major win for the early startup Hortonworks. Hortonworks is a spin out of Yahoo! and includes many of the core contributors to the Apache Hadoop distribution: Hortonwoks Taking Hadoop to Next Level.

明らかなことは、スタートアップである Hortonworks に、大きな成功がもたらされることだ。 Hortonworks は Yahoo! からのスピンアウトであり、また、Apache Hadoop ディストリビューションにおけるコア・コントリビュータである: Hortonwoks Taking Hadoop to Next Level

imageThis announcement is also a big win for the MapReduce processing model. First invented at Google and published in MapReduce: Simplified Data Processing on Large Clusters. The Apache Hadoop distribution is an open source implementation of MapReduce. Hadoop is incredibly widely used with Yahoo! running more than 40,000 nodes of Hadoop with their biggest single cluster now at 4,500 servers. Facebook runs a 1,100 node cluster and a second 300 node cluster. Linked in runs many clusters including deployments of 1,200, 580, and 120 nodes. See the Hadoop Powered By Page for many more examples.

さらに、このアナウンスメントは、MapReduce プロセシング・モデルにとっての、大きな勝利を意味する。 最初に Google で考案され、そして MapReduce として提供された:Simplified Data Processing on Large Clusters 。 つまり、Apache Hadoop のディストリビューションは、MapReduce のオープンソース実装である。 Hadoop は、Yahoo! において、きわめて広範囲で利用されている。いまでは、40,000 以上のノードが実行され、最大のシングル・クラスタは 4,500 サーバーにまで至っている。 また、Facebook は、1,100 ノードのクラスタと、300 ノードクラスタを運用している。さらに、LinkedIn も、1,200/580/120 のノードのディプロイメントを含めて、多数のクラスタを実行している。その他の、多数の事例に関しては、Hadoop Powered By Page を参照して欲しい。

In the cloud, AWS began offering Elastic MapReduce back in early 2009 and has been expanding the features supported by this offering steadily over the last couple of years adding support for Reserved Instances, Spot Instances, and Cluster Compute instances (on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)and support for more regions with EMR available in Northern Virginia, Northern California, Ireland, Singapore, and Tokyo.

クラウドにおいては、2009年の初頭より AWS が Elastic MapReduceの提供を開始し、この 2年の間に、着実に機能を拡張してきた。Reserved Instances や、Spot Instances、Cluster Compute Instances(on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)を追加し、Northern Virginia/Northern California/Ireland/Singapore/Tokyo などのリージョンをサポートしている。

Microsoft expects to have a pre-production (what they refer to as a “community technology Preview”) version of a Hadoop service available by the “end of 2011”. This is interesting for a variety of reasons. First, its more evidence of the broad acceptance and applicability of the MapReduce model. What is even more surprising is that Microsoft has decided in this case to base their MapReduce offering upon open source Hadoop rather than the Microsoft internally developed MapReduce service called Cosmos which is used heavily by the Bing search and advertising teams. The What is Dryad blog entry provides a good description of Cosmos and some of the infrastructure build upon the Cosmos core including Dryad, DryadLINQ, and SCOPE.

Microsoft は「2011年の終わり」までに、Hadoop サービスのプリ・プロダクション・バージョン(彼らの言う “community technology Preview”)を持ちたいと望んでいる。  このことは、さまざまな点で興味深いものである。 第一に、MapReduce モデルが、広範囲で受け入れられ、その適用性が証明されたことになる。  さらに驚くべきことは、Microsoft による MapReduce 提供が、オープンソースである Hadoop ベースで行われることである。つまり、Microsoft が内製し、Bing サーチと広告チームで利用されている、Cosmos という MapReduce サービスを押しのけることになる。 What is Dryad ブログのエントリーには、Cosmos に関する丁寧な説明と、その上に構築された Dryad/DryadLINQ /SCOPE などの情報が提供されている。

As surprising as it is to see Microsoft planning to offer MapReduce based upon open source rather than upon the internally developed and heavily used Cosmos platform, it’s even more surprising that they hope to contribute changes back to the open source community saying “Microsoft will work closely with the Hadoop community and propose contributions back to the Apache Software Foundation and the Hadoop project.”

つまり、Microsoft 内部で開発され、各部門で利用されている Cosmos プラットフォームよりも、オープンソース・ベースのMapReduce の提供を計画している点は、驚くべきことである。そして、「Microsoft は Hadoop コミュニティと緊密に作業を進め、Apache Software Foundation と Hadoop Project に対してコントリビュートシていく」と言い、そこで得られた成果を、オープンソース・コミュニティに戻していきたいとしている点に、さらに驚かされる。

· Microsoft Press Release: Microsoft Expands Data Platform
· Hortonsworks Press Release: Hortonworks to Extend Apache Hadoop to Windows Users
· Hortonworks Blog Entry: Bringing Apache Hadoop to Windows

Past MapReduce postings on Perspectives:

· MapReduce in CACM
· MapReduce: A Minor Step Forward
· Hadoop Summit 2010
· Hadoop Summit 2008
· Hadoop Wins TeraSort
· Google MapReduce Wins TeraSort
· HadoopDB: MapReduce over Relational Data
· Hortonworks Taking Hadoop to Next Level

James Hamilton

b: /


TAG index昨年の夏に Ray Ozzie が去り、秋には Bob Muglia を解任してしまい、大事な時期に空白の数カ月をもたらしてしまった Microsoft ですが、久々に良いニュースが聞けて嬉しいですね。 また、最初の Hadoop World が開催されてから( 3回目の Hadoop World NYC は11月)、わずか 2年で、Hadoop も重要なポジションを確立しましたね。そちらの側から見ても、とても嬉しいニュースです。 なお、文中でも参照している Hortonworks に関する記事は、<関連>の先頭にありますので、よろしければ、ご参照ください。ーーー __AC Stamp 2



Yahoo! から派生した Hortonworks が 次期 Hadoop を語る by J.H.
Big Data を探せ! アメリカの 5つの具体的な事例とは?
クラウドで Big Data をハンドリングする 6 社の事例
OpenFlow と Big Data の 深い関係について
HP が $10B で 買収する Autonomy は、Big Data のスペシャリスト?


Google の 3つの世代を振り返る – Batch, Warehouse, Instant

Posted in .Selected, Big Data, Google by Agile Cat on September 27, 2011

The Three Ages of Google – Batch, Warehouse, Instant
Monday, August 29, 2011

_ highscalability

imageThe world has changed. And some things that should not have been forgotten, were lost. I found these words from the Lord of the Rings echoing in my head as I listened to a fascinating presentation by Luiz André Barroso, Distinguished Engineer at Google, concerning Google’s legendary past, golden present, and apocryphal future. His talk, Warehouse-Scale Computing: Entering the Teenage Decade, was given at the Federated Computing Research Conference. Luiz clearly knows his stuff and was early at Google, so he has a deep and penetrating perspective on the technology. There’s much to learn from, think about, and build.

世界は変化した。 そして、忘れ去られるべきではない、いくつかのものが失われた。 Google の Distinguished Engineer である、Luiz Andre Barroso による魅力的なプレゼンテーションを聴いたとき、この Lord of the Rings の言葉が、私の頭の中で響いていることに気づいた。それは、Google における伝説的な過去と、現在の輝き、そして疑わしき未来のことである。 彼の話である、Warehouse-Scale Computing: Entering the Teenage Decade は、Federated Computing Research Conference で提供されている。 明らかに、Luiz は自身の専門分野に明るく、また、早期の Google に在籍していた。 したがって、このテクノロジーに対して、深く鋭い見識を持っている。 そこには、学習し、思考し、構築すべき、数多くの事柄がある。

Lord of the Rings applies at two levels. At the change level, Middle Earth went through three ages. While listening to Luiz talk, it seems so has Google: Batch (indexes calculated every month), Warehouse (the datacenter is the computer), and Instant (make it all real-time). At the “what was forgot” level, in the Instant Age section of the talk,  a common theme was the challenge of making low latency systems on top of commodity systems. These are issues very common in the real-time area and it struck me that these were the things that should not have been forgotten.

Lord of the Rings を、2つのレベルに対して適用する。 このレベルの変節において、Middle Earth は 3つの世代を経過してきた。Luiz の話に耳を傾けると、Google には Batch(毎月計算されるインデックス)、Warehouse( データセンターこそコンピューティング)、そし てInstant(すべてをリアル・タイムに)があるように思われる。 この話において、Instant Age セクションの「忘れ去られたもの」レベルに在る普遍的なテーマは、普及品システムの上に低レイテンシー・システムを構築するというチャレンジであった。 それは、リアルタイム・エリアにおける極めて普遍的な問題であり、また、忘れ去られるべきものではないと、私の頭の中に響いた。

What is completely new, however, is the combining of Warehouse + Instant, and that’s where the opportunities and the future is to be found- the Fourth Age.

しかし、完全に新しいものというと、それは Warehouse + Instant という結合であり、また、機会と未来が見いだされる、Fourth Age のあるべき場所となる。

The First Age – The Age of Batch

imageThe time is 2003. The web is still young and HTML is still page oriented. Ajax has been invented, but is still awaiting early killer apps like Google Maps and a killer marketing strategy, a catchy brand name like Ajax.

話は 2003年にさかのぼる。 Web は、まだ若く、HTML はページ指向であった。そして、Ajax が考案されたが、Google Maps のようなキラー・アプリ待っている状況であり、Ajax のような魅力的なブランドネームを持つ、キラー・マーケティング戦略が待ち望まれていた。

Google is batch oriented. They crawled the web every month (every month!), built a search index, and answered queries. Google was largely read-only, which is pretty easy to scale. This is still probably the model most people have in their minds eye about how Google works.

Google は、バッチ志向である。 毎月の Web クローリングを行い(毎月だったのだ!)、検索インデックスを構成し、クエリーに対して答えていた。 Google の大部分はリードオンリーであり、また、そのスケールも、きわめて容易であった。おそらく、この段階の Google は、それが機能すろ様子に、人々が関心をもつという、モデルであったに過ぎない。

Google was still unsophisticated in their hardware. They built racks in colo spaces, bought fans from Walmart and cable trays from Home Depot.

Google は、ハードウェアという視点においても洗練されていなかった。 彼らは、コロケーション・スペースにラックを構築し、Walmart からファンを買い、Home Depot からケーブル・トレイを仕入れていた。

It’s quaint to think that all of Google’s hardware and software architecture could be described in seven pages: Web Search for a Planet: The Google Cluster Architecture by Luiz Barroso, Jeffrey Dean, and Urs Hoelzle. That would quickly change.

Google のハードウェアとソフトウェアにおける、すべてのアーキテクチャが、Luiz Barroso/Jeffrey Dean/Urs Hoelzle による 7ページのドキュメン 『 Web Search for a Planet: The Google Cluster Architecture 』 に記述できていた、と思うこと自体が興味深い。 そして、それらは急速に変化していった。

The Second Age – The Age of the Warehouse

The time is 2005. Things move fast on the Internet. The Internet has happened, it has become pervasive, higher speed, and interactive. Google is building their own datacenters and becoming more sophisticated at every level. Iconic systems like BigTable are in production.

時は 2005年である。 インターネット上の動向が加速してきた。 そして、普及と、高速化と、対話型の実現が、インターネット上で実現されていった。 Google は自身のデータセンターを構築し、すべてのレベルにおいて更に洗練されていった。 BigTable のような象徴的なシステムが、プロダクションのレベルにあった。

About this time Google realized they were building something qualitatively different than had come before, something we now think of, more or less, as cloud computing. Amazon’s EC2 launched in 2006. Another paper, this one is really a book,  summarizes what they were trying to do: The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines by Luiz André Barroso and Urs Hölzle. Note the jump from 7 pages to book size and note that it was published in 2009, 4 years after they were implementing the vision. To learn what Google is really up to now will probably take an encyclopedia and come out in a few years, after they are on to the next thing.

この時点において、従来からのものとは質的に異なる何かを、Google は構築していると悟った。それは、多かれ少なかれ、クラウド・コンピューティングとして、現在の我々が考えている何かである。 そして Amazon の EC2 が、2006年に立ち上がった。 もう 1つのペーパーが、今度は本物の本である、The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines が Luiz Andre Barroso と Urs Holzle により書き下ろされ、彼らが行おうとしていることを要約した。 そのノートは、当初の 7ページからブックサイズにまで拡大され、彼らがビジョンを実装した 4年後の、2009年に出版された。 これまでに Google が行ってきた、本当のことを学習しようとするなら、彼らが次のステージへ移った後に、おそらく百科事典を手に取り、数年を費やす必要があるだろう。

The fundamental insight in this age is that the datacenter is the computer. You may recall that in the late 1980s Sun’s John Gage hailed “the network is the computer.” The differences are interesting to ponder. When the network was the computer we created client-server architectures that appeared to the outside world as a single application, but in reality they were made of individual nodes connected by a network. Wharehouse-scale Computing (WSC) moves up stack, it considers computer resources, to be as much as possible, fungible, that is they are interchangeable and location independent.  Individual computers lose identity and become just a part of a service. Sun later had their own grid network, but I don’t think they ever had this full on WSC vision.

この年代における基本的な洞察は、[the datacenter is the computer]という点に集約される。1980年代の後期に、Sun の John Gage が[the network is the computer]という概念を支持したことを思い出すかもしれない。 この相違点について、思い巡らすのも面白い。 そして、[ the network is the computer]が登場したとき、外側の世界と結ぶクライアント・サーバ・アーキテクチャを、私たちはシングル・アプリケーションとして構成した。しかし、その実体は、ネットワークにより接続される、個別のノードから構成されるものであった。  Wharehouse-scale Computing(WSC)は、考え得る限りのコンピュータ・リソースを、上位のスタックへと押し上げる。 そして、その代償として、ロケーションに依存しない、置き換えが可能なものへとなっていく。それぞれのコンピュータがアイデンティティを失い、サービスにおける単なる一部へと変化していく。 Sun の後期には、自身のグリッド・ネットワークを存在していたが、この WSC のフル・ビジョンを、彼らが持っていたとは思えない。

Warehouse scale machines are different . They are not made up of separate computers. Applications are not designed to run single machines, but to run Internet services on a datacenter full of machines. What matters is the aggregate performance of the entire system.

Warehouse スケールのマシンは、別の考え方による。 それらは、別個のコンピュータで構成されるものではない。 アプリケーションをシングル・マシンで実行するのではなく、データセンターを埋め尽くす全てのマシンで、インターネット・サービスを実行するようにデザインされている。 重要なことは、全体的なステムのパフォーマンス・アグリゲーションである。

The WSC club is not a big one. Luiz says you might have warehouse scale computer if you get paged in the middle of the night because you only have petabytes of data of storage left. With cloud computing

この WSC の世界は、決して広ものではない。 Luiz が言うには、ストレージにペタバイトのデータ残っているから、真夜中に呼び出される場合もあるという、Warehouse スケール・コンピュータの世界になるらしい。

The Third Age – The Age of Instant

The time is now. There’s no encyclopedia yet on how the Age of Instant works because it is still being developed. But because Google is quite open, we do get clues: Google’s Colossus Makes Search Real-Time By Dumping MapReduce; Large-Scale Incremental Processing Using Distributed Transactions And Notifications; Tree Distribution Of Requests And Responses; Google Megastore – 3 Billion Writes and 20 Billion Read Transactions Daily; and so much more I didn’t cover or only referenced.

ようやく、現在にまで戻ってきた。 それは、まだ開発の途上であるため、Age of Instant の機能や振る舞いに関する百科事典も無い。 ただし、Google はきわめてオープンであるため、私たちは手がかりを得られる: Google’s Colossus Makes Search Real-Time By Dumping MapReduce; Large-Scale Incremental Processing Using Distributed Transactions And Notifications; Tree Distribution Of Requests And Responses; Google Megastore – 3 Billion Writes and 20 Billion Read Transactions Daily ; などの、カバーできていない、リファレンスだけのものがある。

Google’s Instant Search Results is a crude example Luiz says of what the future will hold. This is the feature that when you type in a letter in the search box you instantly get back query results. This means for every query 5 or 6 queries are executed. You can imagine the infrastructure this must take.

Google の Instant Search Results は、 Luiz の言う未来へ向けた、まだ荒削りな事例である。 この機能は、検索ボックスで文字入力した直後に、クエリーにより結果を受け取るというものである。 つまり、すべての検索において、5~6 回のクエリーが実行されることになる。そのために必要なインフラストラクチャについて、あなたはイメージできるだろうか。

The flip side of search is content indexing. The month long indexing runs are long gone. The Internet is now a giant event monster feeding Google with new content to index continuously and immediately. It is astonishing how quickly content is indexed now. That’s a revolution in architecture.

検索の裏側にあるのは、コンテントのインデックス化である。 1ヶ月も前のインデキシングを実行しなくなってから、ずいぶんと歳月が経っている。 そしてインターネットは、新しいコンテントのインデックスを、連続的かつ即時的も Google に供給する、巨大なイベント・モンスターであり続ける。 現在における、コンテントのインデックス化を評価するなら、そのスピードに驚くばかりとなる。 それは、アーキテクチャにおける革命である。

Luiz thinks in the next few years the level of interactivity, insight and background information the system will have to help you, will dwarf what there is in Instant Search. If you want to know why Google is so insistent on using Real Names in Google+, this is why. Luiz explains this change having 4 drivers:

Luiz の考えでは、この先の数年において、対話性と、洞察力、バックグラウンド情報のシステムにより、ユーザーは支援される必要があるようだ。 それにより、Instant Search は突出した存在ではなくなる。なに故に、Google+ における Real Names 使用を、Google が強く主張しているのかと考えるなら、それが答えなのかもしれない。 Luiz の説明によると、この変更は、以下の 4項目を含んでいる:

  • Applications – instantaneous , personalized, contextual
  • Scale – increased attention to latency tail
  • Efficiency – driving utilization up, and energy/water usage down
  • Hardware Trends – non-volatile storage, multi-cores, fast networks

Instant in the context of Warehouse computing is a massive engineering challenge. It’s a hard thing to treat a datacenter as a computer and it’s a hard thing to provide instant indexing and instant results, to provide instant in a warehouse scale computer is an entirely new level of challenge. This challenge is what the second half of his talk covers.

Warehouse コンピューティングという環境での Instant は、大規模エンジニアリングにおける課題である。 Ddatacenter as a Computer の取り扱いは難しく、また、Instant インデキシングと Instant リザルトの提供も難しいことである。Warehouse スケールのコンピューティングにおいて Instant を提供することは、完全に新しいレベルのチャレンジなのである。 このチャレンジについては、彼の話の後半でカバーされている。

The problem is we aren’t meeting this challenge. Our infrastructure is broken. Datacenters have the diameter of a microsecond, yet we are still using entire stacks designed for WANs. Real-time requires low and bounded latencies and our stacks can’t provide low latency at scale. We need to fix this problem and towards this end Luiz sets out a research agenda, targeting problems that need to be solved:

何か問題かといえば、この課題に対して、私たちが立ち向かっていないことである。 私たちのインフラストラクチャは、壊れている。 データセンターは、マイクロ・セカンド・レベルの容量を有しているが、私たちは依然として、WAN のためにデザインされた全体的なスタックを使っている。 Real-time は、低レイテンシと結合レイテンシを要求し、また、私たちのスタックは、必要とされるスケールでの低レイテンシを提供できない。 この問題をフィックスする必要があり、また、Luiz が設定した研究アジェンダに立ち向かっていく必要性がある。 そして、解決されるべき問題点は、以下のとおりである:

  • Rethink IO software stack. An OS that makes scheduling decisions 10s of msecs is incompatible with IO devices that response in microseconds.
  • Revisit operating systems scheduling.
  • Rethink threading models.
  • Re-read 1990′s fast messaging papers.
  • Make IO design a higher priority. Not just NICs and RDMA,  consider CPU design and memory systems.

“The fun starts now” Luiz  says, these are still very early days, predicting this will be the:

『 興味深いことが始まった』と Luiz は言う。 そして、以下の項目を予測するには、まだ、日が浅すぎる:

  • Decade of resource efficiency
  • Decade of IO
  • Decade of low latency (and low tail latency)
  • Decade of Warehouse-scale disaggregation, making resources available outside of just one machine, not just a single rack, but all machines.

This is a great talk, very informative, and very inspiring. Well worth watching. We’ll talk more about specific technical points in later articles, but his sets the stage not just for Google, but for the rest of the industry as well.

このトークは、とても素晴らしく、また有益であり、大いに触発される。 考えるべき、充分な重みを持つ事柄である。 私たちは、この後の記事においても、特定のテクニカル・ポイントについて説明していくだろう。 ただし、彼のセットするステージは Google のためだけに有るのではなく、この業界全体のための有るのだ。

Related Articles






TAG indexひさびさの、Todd Hoff さんの記事です(Big Data カンファレンスのリストはありましたが)。 この記事は、たしか 8月の終わりにポストされていたのですが、f8 が気になって手を付けられずにいました。 でも、Facebook が新機軸を発表した後に、こうして両社を見比べてみると、やはり Google はインフラストラクチャの会社なのだと感じさせてくれますね。 とてもカッコ良いです :)  このドキュメントの先にあるリファレンスは、まだ、まったく見ていませんが、きっと深遠な世界が広がっているのでしょうね。 ーーー __AC Stamp 2



Google Instant では、リアルタイム検索のために MapReduce を排除!
Google Megastore – 1日で 30億 Write/200億 Read のトランザクションを実現
Google の発想 – リクエストとレスポンスを Tree で制御する
Google IO 2011 での、Big Data 関連ビデオをピックアップ!
Google – Cluster Computing and MapReduce Lecture 1-5
Google は 1000万台のサーバーを目指す ?
Google 的 クラウド連携の ABC ?


OpenFlow と Big Data の 深い関係について

Posted in .Selected, Big Data, Hadoop, Network, OpenFlow by Agile Cat on September 7, 2011

OpenFlow: A Technology on the Move
By Kyle Forster Jul. 24, 2011, 9:00am

_ Gigaom

OpenFlow may be one of the hotter buzzwords in bleeding-edge networking technologies these days, but getting past the emotional exuberance and down to brass tacks in this area can be difficult. Why? First,the OpenFlow protocol is a sort of infrastructure-of-infrastructure that can be applied many places. Second, OpenFlow continues to pop up in new contexts as the ecosystem around the technology expands. This is a story of an engineering achievement built to solve one problem that has become the root of a veritable family tree of solutions for problems in the networking space.

OpenFlow は、最近の先端ネットワーク・テクノロジーにおける、ホットなバズワードの 1つかもしれない。 しかし、このエリアで、感情のレベルを超え、また、核心にまで到達することは、難しいものにもなり得る。 なぜだろう? 最初に、この OpenFlow プロトコルが、数多くの状況に適応し得る、インフラストラクチャの中のインフラストラクチャという種類である点があげられる。 続いて、そのテクノロジーの周辺にエコシステムが広がるにつれて、OpenFlow には新しいコンテキストが、登場し続けることも指摘しておく。 それは、1つの問題を解決すために構築された、工学的な業績の物語である。 そして、その問題とは、紛れもないファミリー・ツリーの、ルートとなるソリューションに根ざすものとなる。 つまり、それにより、ネットワーク空間に横たわる数々の問題が解決され、また、数々の問題が生じているという状況にあるのだ。

How OpenFlow got here

imageIf you look at the OpenFlow v1.0 spec – a scant 27-page-long document – it isn’t immediately obvious that this is going to be useful, much less revolutionary. At its most basic level, OpenFlow is a protocol for server software (a “controller”) to send instructions to OpenFlow-enabled switches, where these instructions give direct control over how those switches forward traffic through the network.

OpenFlow v1.0 spec - 27ページの長いドキュメント - を読むにしても、それが有用であっても、それほど革命的ではないことは、ただちには見抜けないだろう。  OpenFlow とは、その最も基本的なレベルにおいて、OpenFlow 対応のスイッチへ向けてインストラクションを送る、サーバー・ソフトウェア(コントローラー)のためのプロトコルのことである。そして、インストラクションを受け取ったスイッチには、ネットワークを介してトラフィックを転送する方法について、ダイレクトなコントロールが与えられる。

I think of OpenFlow like an x86 instruction set for the network – it’s low-level, but it’s very powerful. Continuing that analogy, if you read the x86 instruction set for the first time, you might walk away thinking it could be useful if you need to build a fancy calculator, but using it to build Linux, Apache, Microsoft Word or World of Warcraft wouldn’t exactly be obvious. Ditto for OpenFlow. It isn’t the protocol that is interesting by itself, but rather all of the layers of software that are starting to emerge on top of it, similar to the emergence of operating systems, development environments, middleware and applications on top of x86.

私の考える OpenFlow とは、ネットワークのための x86 インストラクション・セットのようなものであり、低レベルではあるが、きわめてパワフルなものとなる。 この類推を、もう少し続ける。 あなたが、x86 インストラクション・セットを始めて読んだとき、シャレた計算器を構築するのには、有用になり得ると思ったことだろう。しかし、それにより、Linux や、Apache、Microsoft Word、World of Warcraft が構築されるとは、確信できなかっただろう。 OpenFlow も、同じである。 それは、単体で興味を惹くプロトコルではないが、あらゆるソフトウェア・レイヤが、その上に出現し始めている。つまり、x86 上に、オペレーティング・システムや、開発環境、ミドルウェア、アプリケーションなどが出現してきた状況に似ているのだ。

クリックで拡大 ⇒

The evolution of OpenFlow … for now.

Image courtesy of Flickr user flickrohit.

From where I sit, OpenFlow got its first traction outside of academia in the super-large data centers of companies trying to solve really big data problems. Several years ago, these teams were faced with the daunting task of building a network for map-reduce/Hadoop clusters that could scale to the hundreds of thousands of servers.

私の視点からだと、OpenFlow がアカデミックの外側で最初に得たものは、Big Data の問題を解決しようとする企業の、きわめて大規模なデータセンターからの推進力だと思える。 数年前のことだが、それらのチームは、何十万のサーバーにまでスケールする MapReduce / Hadoop クラスタ用のネットワーク構築において、困難なタスクに直面していた。

Full cross-sectional bandwidth is a must-have requirement for these big data applications, and it doesn’t take much back-of-the-envelope calculating to come to the conclusion that a tree-based architecture will require throughput on core switches/routers that simply can’t be bought at any price right now. Furthermore, the networks in these clusters are no longer so cleanly distinguishable from the application software. Instead, they are just one component in an overall big, big data system, and they need programmatic interfaces that play nicely with other parts of the system. From these early efforts to support big data apps came a new generation of non-tree architectures, all closely tied to concepts that we see in OpenFlow such as flexible forwarding and the ability to really program the network to meet specific application needs.

完全な断面帯域( cross-sectional bandwidth)が、それらの Big Data アプリケーションにとって、絶対に欠かせない要件となる。ただし、その結論を、計算から導き出すのは、たやすい事ではない。つまり、コアとなるスイッチ/ルーター上で、スループットを要求する Tree Base のアーキテクチャは、いかなる対価を支払っても購入できないものとなる。 それどころか、それらのクラスタに収まったネットワークは、もはや対象となるアプリケーション・ソフトウェアから、それほど明確に分離することができなくなる。その代わりに、Big Data システム全体の中の 1つのコンポーネントとなり、システムにおける他の部分と上手にインタラクトする、プログラマブルなインターフェイスが必要となる。Big Data アプリケーションをサポートするための、早い時期から積み上げられてきた努力から、次世代 Non-Tree アーキテクチャがもたらされている。それは、柔軟な転送のための機能と、アプリケーション固有の要件を充たすネットワーク・プログラミング能力といった、OpenFlow のコンセプトと密に結び付けられたものとなる。

R&D in this area started in earnest a few years ago – roughly coinciding with the formation of the first few OpenFlow startups and the beginnings of the academia-meets-industry Tuesday OpenFlow meetings back at Stanford. Motivated by the big data problem, that group planted the seeds of the OpenFlow protocol. With the Open Networking Foundation forming this year and talk of large-scale production builds underway, these seeds are starting to bear (commercial) fruit.

このエリアにおける R&D は、数年前から本格的に始まっている。早期における数少ない OpenFlow スタートアップの形成と、 Stanford に戻った産学 Tuesday OpenFlow ミーティングは、ほぼ同時に起こっている。 Big Data の問題により、興味を持つことになったグループが、OpenFlow プロトコルに SEED を植え付けた。今年に設立された Open Networking Foundation と、構築中のラージ・スケール・プロダクション関係筋の話によると、それらの SEED は、果実(ビジネス)を実らせ始めている。

OpenFlow goes webscale and then to the cloud

As with many scientific achievements, solving this massive-scale big data problem has generated solutions to many related problems. For example, large-scale public Infrastructure-as-a-Service (IaaS) cloud providers realized this new network architecture better serves their needs. However, there were still some unaddressed problems, such as needing to isolate each customer/tenant into its own network.

数多くの科学的な業績と同様に、きわめて膨大なスケールの、Big Data における問題を解決することは、それに関連する大量の問題に対するソリューションを生み出す。 たとえば、ラージ・スケールの IaaS クラウド・プロバイダたちが、この新しいネットワーク・アーキテクチャにより、彼らのニーズが充たされることを悟った。 しかし、それぞれのカスタマ/テナントを、彼ら自身のネットワークの中に分離していく必要性といった、いくつかの取り組まれていない問題があった。


Nick McKeown, who helped develop OpenFlow at Stanford.

Further, each tenant is constantly submitting requests to add/remove VMs, and servicing these dynamic requests often requires spreading VMs all throughout a data center and then trying to move them back closer to each other. Solving these problems requires some very fancy and often custom Layer 2 and Layer 3 gymnastics — new problems to solve, and OpenFlow turns out to be a great fit there because it allows the network designers to more easily deploy the custom forwarding policy they need across the portions of the network that need it.

さらに、それらのテナントは、VM を add/remove するためのリクエストを発行し、また、そのためのダイナミックなリクエストへの対応により、データセンター全体に VM を展開することが頻繁に起こり、さらには、お互いに近い位置へ戻そうとすることもある。 これらの問題を解決するためには、きわめて洗練された、そして、多くの場合にカスタムなものとなる、Layer 2 と Layer 3 の知的訓練が必要となる。 つまり、それが解決すべき新しい問題であり、また、そのためには OpenFlow が最適であると理解できる。なぜなら、ネットワーク・デザイナーたちが、必要とされるネットワーク内の特定部分をまたいで、カスタムな転送ポリシーを配置することを、OpenFlow は容易に実現するからである。  

Who knows what tomorrow will bring

That brings us up to the R&D happening today where we see a new branch of OpenFlow solutions emerging in trials for private IaaS clouds. While not ‘multi-tenant’ in quite the same sense as the public clouds, these deployments have a lot of issues in common with public clouds. The cross-section bandwidth problem still exists, of course, but now the virtualization, isolation, delegated administration and co-existence with classic network architectures have become key problems to solve. OpenFlow allows the network to be programmed directly to solve these problems with the same speed that IaaS providers have become accustomed to with server virtualization.

ようやく、いまの R&D で起こっている事象まで、話がつながってきた。 そこでは、プライベートの IaaS クラウドのためのトライアルとして、OpenFlow ソリューションに新しい分岐が出現していることを確認できる。 マルチ・テナントは、パブリック・クラウドとは全く異なる意味を持つが、そのディプロイメントにおいいては、パブリック・クラウドと共通に数多くの問題が存在する。 もちろん、断面帯域( cross-sectional bandwidth)の問題も依然として存在するが、いまでは、仮想化や分離、そして管理の委任、さらには、従来からのネットワーク・アーキテクチャの共存などが、解決するべき重要な問題となっている。 OpenFlow は、それらの問題をダイレクトに解決するための、ネットワーク・プログラミングを実現するが、それは、IaaS プロバイダが、サーバーの仮想化で経験したスピードで進んでいく。

Are there more of these branches of the OpenFlow family tree blossoming? Of course. One short blog post is not quite enough to talk about OpenFlow in the campus LAN environment starting to get traction in some of the original research universities or the early interest in OpenFlow as “the new stackable” for small/medium business networking. I’ll leave those for future posts.

開花した OpenFlow ファミリーの大樹には、その他の枝もあるのだろうか? もちろん、ある。 このような、ショート・ブログ・ポストで、キャンパス LAN 環境における OpenFlow について書くことは不可能だ。大元である大学での研究において、また、small/medium ビジネス・ネットワークキングのための、STACK-ABLE な OpenFlow に対する早期からの関心事として、いくつかの事柄が促進されている。 今後のポストにおいて、それらに触れていきたい。

Net-net, is OpenFlow going to be useful? Absolutely yes. What is it going to be used for? I don’t think that there is any one answer, but rather a family tree that is growing new branches, blossoming and bearing new fruit as we speak.

最終的な収支として、OpenFlow は有用なものになるのだろうか? 絶対的に Yes である。 何のために、それは使われるのか? そこに 1つの答えがあるとは、私は思わない。しかし、私たちが話をするように、この大樹には、新しい枝が成長し、花が咲き、新鮮な果物が実っていくだろう。

Kyle Forster is the VP of sales and marketing and co-founder of BigSwitch Networks.

Related research and analysis from GigaOM Pro:


TAG index訳していて、止まらなくなってしまう、面白さ・・・ でした。Agile_Cat には Big Data とか、Hadoop とかのカテゴリもあるのですが、それらと OpenFlow が連携するという、いわば歴史的な瞬間が訪れたわけです :)  それにしても、データセンター内の複雑なネットワークというのは、とても深刻な問題なのだと思います。 おそらく、Amazon AWS のダウンも、after OpenFlow であれば回避できた問題なのでしょう。 そう考えると、クラウドも、まだまだ これからのテクノロジーなのだと実感してしまいますね。 ーーー __AC Stamp 2



OpenFlow のゴールとは?
OpenFlow のスイッチとは?
OpenFlow 専門家になるための近道とは?
OpenFlow により、ネットワーク業界は HOT になるのか?
スタンフォード大学の Open Networking Summit と OpenFlow
Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる


%d bloggers like this: