Agile Cat — in the cloud

Big Data の調査:未来においても Hadoop の支配は続くのか?

Posted in Big Data, Hadoop, On Monday by Agile Cat on June 23, 2014

Big Data and Hadoop: Will Hadoop Continue to Dominate?
http://wp.me/pwo1E-7Ba

By Dick Weisinger – June 19, 2014
http://formtek.com/blog/big-data-and-hadoop-will-hadoop-continue-to-dominate/

_ formtek

When people talk Big Data today, often they’re talking about Hadoop, a technology first created by Doug Cutting in 2005.  Forrester Research says that “Hadoop is unstoppable as its open source roots grow wildly and deeply into enterprises.”

現時点において、人々が Big Data について語るとき、大半の場合、Hadoop の話になる。そのテクノロジーは2005年に Doug Cutting により作り出されたものである。Forrester Research は、「 オープンソースをルーツに持つものが成長し、エンタープライズにも強引に入り込んでくるにつれて、Hadoop も止められないものになる」と発言している

The following are just some of the vendors have built solutions around Hadoop: Amazon Web Services (AWS), Cloudera, Hortonworks, IBM, Intel, MapR Technologies, Microsoft, Pivotal Software, and Teradata.

この流れに従う形で、いくつかのベンダーが、Hadoop に関連するソリューションを構築している。 具体的には、Amazon Web Services (AWS)/Cloudera/Hortonworks/IBM/Intel/MapR Technologies/Microsoft/Pivotal Software/Teradata などの名前が挙げられる。

Analysts like Allied Market Research estimate that the Hadoop market will grow from $2.0 billion in 2013 to $50 billion in 2020.  The forecast includes software, hardware and services.  Today services represent about half of the Hadoop market.  But how realistic are estimates for a product market-size five-years out?

Allied Market Research などのアナリストたちは、Hadoop のマーケットが、2013年の $2.0 billion から、2020年は $50 billion にまで成長すると推定している。

そして、この予測には、ソフトウェア/ハードウェア/サービスが含まれる。 今日の Hadoop マーケットにおいては、サービスの割合が、全体の約半分を占めている。しかし、このマーケットの規模に関する、5年の推定値はというと、どの程度まで現実的なのだろうか?

Forrester ticks off the following four reasons as to why Hadoop is so hot today:

Forrester は、いまの Hadoop がホットな理由として、以下の 4つの理由を挙げている:

  • Provides lower cost storage
  • Based on open source innovation
  • Scales well
  • Provides businesses a way to squeeze profits from their data

Allied Market Research attributes the growth in Hadoop to a strong interest in managing structured and unstructured data and big data analytics.

また、Allied Market Research は、構造化/非構造化データと Big Data 分析の運用において、Hadoop が強い関心を引き寄せているとしている。

But Hadoop is a platform and forecasts about how Hadoop will grow don’t or can’t factor in the appearance of new competing technologies.  Estimates for how technologies will play out six years hence are very difficult to predict.  Consider the effect of the iPad and the fact that the first iPad was sold less than five years ago.   Things can change quickly.  When Big Data is considered as an umbrella category of technologies, it is almost certain to see huge growth between now and 2020, but whether Hadoop will continue to be the center of Big Data in 2020 is less clear.

しかし、Hadoop はプラットフォームであり、また、Hadoop の成長を予測するにあたり、それと競合する新しいテクノロジーを、考慮することは困難である。つまり、これから 6年の間に、どのようなテクノロジーが登場するかと予測することは、きわめて難しいことなのだ。考えて欲しいのは、iPad の出現による変化と、最初に iPad が販売されてから、まだ 5年も経ていないという事実である。すべては、素早く変化していく。Big Data が、テクノロジーの傘下にあると考えた場合、いまから 2020年までの間に、ほぼ確実に大きな成長が見られるだろう。しかし、2020年においても、Hadoop が Big Data の中心に居続けるかというと、明確な根拠があるわけでもない。

James Kobelius, IBM Big Data evangelist, says that “Hadoop’s footprint will continue to grow for some time in the big data arena, especially as the core open-source technologies evolve and enterprises invest more heavily in the technology.  However, Hadoop will be neither the dominant platform nor the architectural centerpiece of most enterprise big data deployments. But that also applies to any other big data platforms, current or emerging, that you might name.”

IBM の Big Data evangelist である James Kobelius は、「 Hadoop の実績は、Big Data という分野において、しばらくの間は成長していくだろう。 とりわけ、コア・オープンソース・テクノロジーが進化し、エンタープライズがテクノロジーに多額の投資を行う世界で、それは顕著になる。しかし、大半のエンタープライズが Big Data をディプロイしていくとき、Hadoop は支配的なプラットフォームではなく、アーキテクチャ上の中心に座ることもないだろう。つまり、いまは名前もない、新しい Big Data プラットフォームの適用もありえるのだ」と、発言している

ーーーーー

Hadoop といえば、その大元は Google の MapReduce になるのですが、Agile_Cat が敬愛する High Scalability の Todd Hoff さんが、「Google Instant では、リアルタイム検索のために MapReduce を排除!」という記事を、2010年 9月の時点で書いていました。 これは、Google がインクリメント・サーチを開始した時期と同じころの話であり、すでに違う世界でチャレンジしているのだなぁ・・・ と関心した記憶が蘇ってきました。 いまの Google 先生はというと、BigQuery というサービスを提供していますが、それと GCE 上の Hadoop の関係など、いったい、どうなっているのでしょうか? いろいろと、興味の尽きないフィールドですね。

ーーーーー

<関連>

IoT の調査: 依然として見えてこない、セキュリティとプライバシーの方向性
Digital Universe の調査: データの生成は、人間からマシンへ、そして先進国から途上国へ
Data Center の調査: 未来のデータセンターは、小型で手元に置かれるものになる
IoT の調査:ベンダーごとの呼び方があるが、やはり IoT は IoT だ!
Cloud Computing の調査:クラウドはオンプレミスを置き換えるものへとシフトしている

Hadoop と Big Data の調査:企業ユーザーが指摘する問題点は、信頼性/使い易さ/ソリューションの欠落

Posted in Big Data, Hadoop, On Monday by Agile Cat on February 24, 2014

Hadoop and Big Data: Businesses Frustrated by Lack of Reliable, User-Friendly and Secure Solutions
http://wp.me/pwo1E-7eV

By Dick Weisinger – February 17th, 2014
http://formtek.com/blog/hadoop-and-big-data-businesses-frustrated-by-lack-of-reliable-user-friendly-and-secure-solutions/

_ formtek

While Big Data technologies made big headlines in the tech press in 2013, by the end of the year, the adoption of Big Data technologies across many businesses was only relatively modest. A survey by the SandHill group of a cross-section of global businesses found that:

Big Data テクノロジーは、2013年のハイテク・プレスで大きな話題をさらい、その年末までヘッドラインを賑わしていたが、大多数の企業における Big Data の採用となると、比較的に控えめであった。グローバル・ビジネスを横断的に見ている、SandHill Group の調査では、以下のような論点が見出されている:

  • 44 percent said that they are still in the exploration and education phase of Big Data technologies
  • 16.3 percent are conducting proof of concept trials
  • 11.1 percent are developing their first Hadoop-based applications
  • 回答者の 44% は、Big Data テクノロジーについて、依然として探求と教育の段階にあると述べている
  • 16.3% は、POC(proof of concept)トライアルを実施していると言っている
  • 11.1% は、自身にとって初めての、Hadoop ベース・アプリケーションを開発していると述べている

Not only has adoption been relatively slow, the types of solutions created to date have tended to be relatively mundane — Matt Assay comments that “by far the biggest use of Hadoop to date has been as a poor person’s ETL”.

その採用が、相対的に見て遅れているだけではなく、これまでに開発されたソリューションのタイプも、ありきたりのものあった。 それについて、Matt Assay は、「 これまでの Hadoop の用途において、群を抜いて多いのは、貧しい人々のための ETL(Extract, Transform, Load)である」と述べている

While there is a strong interest in the potential of Big Data from the business side of organizations, many are frustrated by usability issues of the technology.  A survey of business executives taken by 1010data, for example,  found that a majority feel that they are locked out of Big Data technologies like Hadoop.  53 percent said that Big Data solutions aren’t addressing the needs of business users.  49 percent said that current Hadoop-based solutions are too complex and that they’d like to see solutions for Big Data that have “fewer moving parts”, and 62 percent said that in order for them to more effectively use Big Data technologies like Hadoop to solve business problems that they need to be better educated about how the technology works.

ビジネス・サイドの組織からは、Big Data の可能性に強い関心が示されているが、その中の多くが、このテクノロジーのユーザビリティに対して不満を感じている。 1010data が実施した 企業エクゼクティブに対する調査では、その大多数が、Hadoop のような Big Data テクノロジーを、閉鎖的なものだと捉えられていることが分かった。 また、53% は、ビジネス・ユーザーのニーズに取り組んでいる、Big Data ソリューションが存在していないと述べている。 49% は、現在の Hadoop ベース・ソリューションについて、あまりにも複雑すぎると考え、また、Fewer Moving Parts を有する Big Data ソリューションを探したいと言っている。 そして、62% は、ビジネス上の問題を解決するために、Hadoop のような Big Data テクノロジーを用いるには、このテクノロジーが機能する方式について、より適切な教育が必要だと述べている。

Specifically, the 1010data survey considered how the latest Hadoop 2.0 release can improve business solutions.  Hadoop 2.0 includes YARN which allows Hadoop resources to be managed for multiple jobs running across an array of servers.  But business executives aren’t yet convinced that the technology is ready for prime time.  45 percent of them are worried about reliability.  42 percent say that they have major concerns about costs, and 35 percent say that there is still too much low-level coding required to apply the technology to business solutions.  41 percent say that Hadoop is still too new and not yet as stable as other existing technologies.

具体的にいうと、1010data の調査は、Hadoop 2.0 という最新リリースにより、ビジネス·ソリューションを改善する方式を検討するために実施されている。Hadoop 2.0 には YARN が取り込まれているが、それにより、なんらかのサーバー・アレイを横断するかたちで実行される複数のジョブのために、Haddop リソースを管理できるようになる。 しかし、企業エクゼクティブたちは依然として、このテクノロジーが最盛期を迎えるための、準備を整えているとはと確信していない。 そのうちの、45% は信頼性について心配し、42% はコストを最大の懸念としている。 そして、35%は、このテクノロジーをビジネス・ソリューションに適用するには、依然として低レベルのコーディングが必要だと述べている。 さらに 41% は、Hadoop は新し過ぎて、その他の既存テクノロジーのように、安定していないと言っている。

But software developers and integrators are well aware of the problems.  It’s likely that 2014 will see a surge in Big Data product offerings and add-ons that specifically try to create an improved experience for users.

しかし、ソフトウェアのデベトッパーやインテグレーターは、この問題を、よく理解している。そして、2014年には、Big Data のプロダクトとアドオンが急増し、とりわけ、その利用者に対して、改良されたエクスペリエンスが提供されると思われる。

ーーーーー

2009年10月に開催された、最初の Hadoop World NYC から、すでに 4年半の歳月が流れているのですね。 その頃は、もっと早く、Hadoop の事例が増えてくると思っていましたが、エンタープライズ・ユーザーにまで広がるには、まだまだ取り除かれるべき障壁が多いのだと、この記事を訳していて感じました。 いろいろな意味で、ちょっとガッカリする数字が並んではいますが、もう一息で、そのカベも乗り越えられるでしょう。 ガンバレ Hadoop & Big Data です! image

ーーーーー

<関連>

IoT の調査:ビジネスに革命をもたらすテクノロジーではあるが、まだまだ課題が山積みだ
Mobile の調査: 2014年の中小企業は、PC を捨て始めるかもしれない
Enterprise の調査:ここでもソーシャル・ネットワークが 急成長している
Cloud の調査:これからの2年間で、Top-100 プロバイダーの 25% が買収される
Open Data の調査:年間で 500兆円の 経済効果が 見いだせる?

Hadoop 2 がリリースされた : MapReduce から YARN へ移行

Posted in .Selected, Apache, Big Data, Google, Hadoop, MapReduce by Agile Cat on October 17, 2013

Apache Software Foundation unveils Hadoop 2, replacing MapReduce with YARN
http://wp.me/pwo1E-6MQ

Loek Essers, IDG News Service @loekessers – Oct 16, 2013
http://www.pcworld.com/article/2055140/apache-software-foundation-unveils-hadoop-2-replacing-mapreduce-with-yarn.html

image

The Apache Software Foundation unveiled its latest release of its open source data processing program, Hadoop 2. It runs multiple applications simultaneously to enable users to quickly and efficiently leverage data in multiple ways at supercomputing speed, Apache said Wednesday.

Apache Software Foundation が、そのオープンソース・データ処理プログラムである、Hadoop 2 の最新リリースを発表した。水曜日の Apache の説明によると、マルチ・アプリケーションの同時実行が達成されることで、ユーザーは各種の方式を用いて、しかもスーパー・コンピューターの速度で、そのデータを迅速かつ効率よく活用できるようになる。

Apache Hadoop is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It enables organizations to more efficiently and cost-effectively store, process, manage and analyze the growing volumes of data being created and collected every day.

Apache Hadoop は、シンプルなプログラミング·モデルを用いて、しかもコンピュータやクラスタを横断するかたちで、大規模データの分散処理を実現するフレームワークである。それにより、毎日のようにデータを収集/作成していく組織は、増え続ける情報の保存/処理/管理/分析を、効率よく低コストで達成していける。

Hadoop is deployed at enterprise organizations around the globe, including Amazon Web Services, AOL, Apple, eBay, Facebook, Netflix and Hewlett-Packard.

現時点において Hadoop は、Amazon Web Services/AOL/Apple/eBay/Facebook/Netflix/Hewlett-Packard といった、世界中のエンタープライズに展開されている。

The latest version of the platform, released Wednesday, has been more than four years in the making and has a number of new components. Most notable is the addition of YARN, (Yet Another Resource Negotiator), which is a successor to Hadoop’s MapReduce. The new version splits major functions into two separate daemons, with resource management in one, and job scheduling and monitoring in the other.

水曜日にリリースされた、このプラットフォームの最新バージョンは、その製作に 4年以上の歳月をかけ、また、いくつかの新しいコンポーネントを取り込むものとなる。その中でも、最も注目すべきは、Hadoop における MapReduce の後継者となる YARN(Yet Another Resource Negotiator)である。この新バージョンでは、主要な機能を、2つの Deamon に分割している。その 1つは、Resource Management であり、もう 1つは Job Scheduling and Monitoring となる。

Apache Software Foundation

YARN sits on top of the HDFS (Hadoop Distributed File System) and serves as a large-scale, distributed operating system for big data applications, enabling multiple applications to run simultaneously for more efficient support of data throughout its entire lifecycle, Apache said in a news release. Hadoop 2 and YARN gives users the ability to mix batch, interactive and real-time workloads within a stable foundational part of the Hadoop ecosystem, it said.

YARN は HDFS(Hadoop Distributed File System)の上に配置され、Big Data アプリケーションのための、大規模/分散オペレーティング・システムとして機能する。 それにより、ライフサイクル全体を通して、データを効率よくサポートとしていく、マルチ・アプリケーションの同時実行が可能となると、Apache はニュース・リリースで述べている。 そして、Hadoop 2 と YARN がユーザーに提供するものとして、バッチ/インタラクティブ/リアルタイムのワークロードなどを混在させる能力を、Hadoop エコシステムの安定した基盤を用いて実現することを挙げている。

Apache also refers to YARN as MapReduce Version 2. It retains API compatibility with the previous version, and applications written for MapReduce will run on YARN if recompiled, the foundation said.

また、Apache は YARN について、MapReduce の Version 2 だとしている。 つまり、これまでのバージョンとの API 互換を保持し、再コンパイルさえすれば、MapReduce 用のアプリケーションを YARN 上で実行できると、同ファンデーションは述べている。

More than a dozen Apache projects integrate with Hadoop, and ten more are about to follow, Apache said.

1ダース以上の Apache プロジェクトが Hadoop と統合されているが、その大半が、新たなプラットフォームに移行すると、Apache は述べている。

The General Availability (GA) release of Hadoop 2 follows a preview distribution that was released in June, that also included YARN. Apache Hadoop 2 will be released under the Apache License v2.0.

Hadoop 2 の General Availability (GA) リリースは、6月にリリースされたプレビューに、つまり YARN が含まれていたディストリビューションに従うものとなる。なお、Apache Hadoop 2 は、Apache License v2.0 の下でリリースされる。

ーーーーー

image Hadoop に関するポストというと、かなり久々のことなのですが、当然のものとして、広く浸透していることの、証明なのかもしれません。 昨年の、Apple Maps 騒動のときに、Wired が 面白い記事をポストしていました。 そこには ーーー このバトルの背景は、たった 2つの言葉で説明できる。 つまり、Google は Big Data を使いこなし、その一方で Apple は、Big Data を急いで準備している段階にある。ーーー という、とても分かりやすい一文が記されていました。そして、Hadoop も、ついに新世代なのですね。 ほんと、期待大です!image

ーーーーー

<関連>

IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Facebook にストアされた 100 PB イメージ・データは、写真にすると 6,660 億枚になる!
ついに、Hadoop for Windows がデビューするらしい
Hadoop 王国は、戦国時代へと 突入する?

 

ついに、Hadoop for Windows がデビューするらしい

Posted in .Selected, Apache, Big Data, Hadoop, Microsoft by Agile Cat on February 26, 2013

Hortonworks and Microsoft bring open-source Hadoop to Windows
http://wp.me/pwo1E-5GD

By
Barb Darrow – Feb 25, 2013
http://gigaom.com/2013/02/25/hortonworks-and-microsoft-bring-open-source-hadoop-to-windows/

_ Gigaom

Summary: Hortonworks Data Platform for Windows, now in beta, brings Hadoop to Excel and SQL Server (and vice versa.)

Summary: Hortonworks Data Platform for Windows はベータの段階にあるが、Excel と SQL Server に Hadoop をもたらすものとなる(その逆の見方もある)。

ーーーーー

imageThere’s probably no better way to open up big data to the masses than making it accessible and manipulatable — if that’s a word — via Microsoft Excel. And that ability gets closer to reality Monday with the beta release of Hortonworks Data Platform for Windows. The product of a year-old collaboration between Hortonworks and Microsoft is now downloadable.  General availability will come later in the second quarter, said Shawn Connolly, Hortonworks’ VP of corporate strategy,  in an interview.

Big Data を大衆に広めるという話しなら、Microsoft Excel を介して、そこへのアクセスを容易にし、また、操作しやすくする以上に、良い方法は無い。 そして、月曜日の Hortonworks Data Platform for Windows ベータのリリースにより、その機能の実現に近づいた。 Hortonworks と Microsoft による、1年間のコラボレーションの結果が、すでにダウンロードできるようになっている。  その全体が利用可能になるのは、Q2 の広範囲なるだろうと、 Hortonworks の VP of Corporate Strategy である Shawn Connolly が、インタビューに答えている。

The combination should  make it easier to integrate data from SQL Server and Hadoop and to funnel all that into Excel for charting and pivoting and all the tasks Excel is good at, Connolly added.

この組み合わせにより、SQL Server と Hadoop からのデータを統合し、その結果を Excel に流しこむことが容易になる。 そして、Excel の得意とする、作図やピボットといった作業で、それらのデータを利用できる、と Connolly は付け加えている。

imageHe stressed that this means the very same Apache Hadoop distribution will run on Linux and Windows. An analogous Hortonworks Data Platform for Windows Azure is still in the works.

さらに、彼は、同じ Apache Hadoop ディストリビューションが 、Linux と Windows で走ることになると強調している。 それと同様に、Hortonworks Data Platform for Windows Azure  が、開発の途上にある。

Microsoft opted to work with Hortonworks rather than to continue its own “Dryad” project, as GigaOM’s Derrick Harris reported a year ago. Those with long memories will recall this isn’t the first time that Microsoft relied on outside expertise for database work. The guts of early SQL Server came to the company via Sybase.

GigaOM の Derrick Harris が 1年前にレポートしたように、Microsoft は独自の「Dryad」プロジェクトを継続するより、Hortonworks と協調する道を選んだ。 昔のことを知っている人々は、社外のデータベース・エキスパートに Microsoft が依存することは、決して初めてのことではないと、思い出すだろう。 初期の SQL Server は、その内容を、Sybase に依存していたのだ。

The intersection of structured SQL and  unstructured Hadoop universes is indeed a hotspot, as Derrick Harris reported last week, with companies including Hadoop rivals Cloudera and EMC Greenplum all working that fertile terrain. That means Hortonworks/Microsoft face stiff competition. This topic, along with real-time data tracking, will be discussed at GigaOM’s Structure Data conference in New York on March 20-21.

Derrick Harris が先週に取り上げたように、構造化された SQL と、非構造の Hadoop が交わる点は、ほんとうの意味でホット・スポットである。そして、Hadoop のライバルである、Cloudera や EMC Greenplum などが、その興味深い領域に取り組んでいる。 それは、Hortonworks / Microsoft 連合軍が、厳しい戦いに直面することも意味する。 このトピックおよび、リアルタイム・データ・トラッキングは、3月 20-21日に New York で開催される、GigaOM Structure Data カンファレンスで解説される。

Upcoming: Structure:Data, Mar. 20-21, 2013, New York, Register by March 1 and save $200! More upcoming conferences.

Related research

ーーーーー

TAG indexこの Hortonwoks の Hadoop ですが、どのような形で Microsoft がまとめ上げるのか、とても気になっていました。Windows Azure の一部として、クラウドだけに特化するのであれば、Windows へのポーティングは不要です。 しかし、オンプレミスを前提とした、パッケージ化を考えるなら、Windows 版の Hadoop が不可欠です。 まぁ、どちらかをハッキリさせてというより、中庸をめざして、まずは、パッケージ化を進めていくという判断なのでしょう。いずれにせよ、OSS とは言え、Google の頭脳から生まれた Hadoop を、へんな拘りをもたずに、Microsoft が使うというのは、とても良いことだと思います。ac-stamp-232

ーーーーー

<関連>

Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Hadoop 王国は、戦国時代へと 突入する?

 

みんなの先生 James Hamilton 特集

Posted in .Selected, Amazon, Big Data, Data Center Trends, Hadoop, James Hamilton by Agile Cat on December 2, 2012

Agile_Cat にポリシーがあるなら、大きく影響されているはず・・・
http://wp.me/pwo1E-5j9

Agile_Cat_2012

James Hamilton という人を知ったのは、2009年の春のことです。 とある仕事の流れの中で、アメリカのデータセンター事情を調べることになり、ヤミクモに Google で検索していたら、彼のブログに辿り着いたのです。 そして、『 RDBMS Losing Workloads in the Cloud 』を紹介したのですが、振り返ってみれば、このポストが、その後の Agile_Cat の方向性を定めたことになります。日本語のタイトルは 『 役割を減じる Cloud での RDBMS 』 にしました。

imageたった数枚のスライドで構成されるブログ・ポストですが、スケールという面からみて、これまでのエンタープライズ・サーバーの延長線上にクラウドは成立せず、新たな角度からのアプローチが必要という、いまでは常識になっていることを、ハッキリと Agile_Cat に伝えてくれたのが、このポストなのです。

そして、その年の秋には、NYC で開催された Hadoop World に行く事になり、いわゆる Big Data の最前線を覗き見ることができました。 いま考えてみると、James Hamilton さんのブログを見なければ、NYC へ行く事もなかったでしょうし、その時に知り合った、いまの仕事仲間の人たちとも、ご縁がなかったことになります。 う~ん、どう考えても、Agile_Cat の恩人ですね! Winking smile

2010年には、彼の重要な論文である 『 Architecture for Modular Data Centers 』を、ITMedia から出してもらいました。Agile_Cat などというブログではなく、大手のメディアに紹介して欲しかったのです。日本語のマトメ・ページは、こちらになります。

・・・というわけで、前置きが長くなりましたが、James Hamilton 特集として、以下をポストをリスト・アップしました。 時間が経っている割には、訳せたポストが少ないのですが、それぞれの内容が、とても濃いというのが、その理由なのかもしれません。 お時間のあるときに、1本、1本、ぜひ、ゆっくりと お読みください。

Jan 17, 2010: プライベート・クラウドに未来はない
Mar 9, 2010: イベンチュアル・コンシステンシーはお好き?
Apr 14, 2010: Stonebraker と CAP Theorem と Databases
May 31, 2010: Blackberry のクラウドを探る
Nov 21, 2010: 46MW を湖水で冷却し PUE 1.1 :アルプスの巨大 DC
Dec 22, 2010: GPGPU を用いたソートについて考える
Jun 9, 2011:
Amazon データセンターについて
Oct 13, 2011: Microsoft が発表した、OSS クラウド・サービスとは?
Oct 25, 2011: Facebook メッセージを支えるストレージ・インフラを解説
Nov 2, 2011: 効率の良いデータセンター運用のコツとは?
Jan 18, 2012: Amazon DynamoDB の 超弩級 クラウド NoSQL 感覚
Aug 12, 2012: Facebook と Google の サーバー保有台数を推測する

ーーーーー

Agile_Cat_2012そんなわけで、James Hamilton 先生に引っ張られるかのように、どんどんとクラウド・インフラの世界に傾いていった Agile_Cat であり、2011年の秋には再び NYC を訪れることになりました。 この時は、Facebook の OpenCompute Summit だったのですが、そのキーノート・スピカーとしてアサインされていたのが、James Hamilton さんだったのです。恐る恐る自己紹介してみると、『 お前が Agile_Cat かぁ~ 』という感じで、とても気さくに対応してくれたのが嬉しかったです。 そして、その後も、Sakura Ishikari を紹介してくれたりと、いつも日本を気にかけてくれる James Hamilton 先生には、ほんと、心の底から感謝なのです。

ーーーーー

<関連>

みんなが 期待の Open Cloud 特集
みんなが 注目の SDN/OpenFlow 特集
みんなの 先生 James Hamilton 特集
みんなを 支える Data Center 特集
2012 – 2013 海外 マトメ・ポストを、マトメてみました 62本
泣いて、笑って、驚いて、今年も暮れる WeekEnd 特集


Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない

Posted in .Selected, Apple, Big Data, Google, Hadoop, MapReduce by Agile Cat on October 23, 2012

Apple’s ‘Mapocalypse’ Highlights Big Data Battle
http://wp.me/pwo1E-54a
October 3, 2012 –
Mike Barton
http://www.wired.com/insights/2012/10/mapocalypse-big-data-battle/

WIRED

The new Maps feature in Apple’s iOS 6 (launched with iPhone 5) has caused Apple a headache, and even led to its CEO apologizing. But more important than Apple’s ego is what the “mapocalypse” means in its bigger battle with Google and its Android platform. Forbes’ Dave Einstein writes in “Google vs. Apple Maps: Big-Data Battle, Cloudy Clash”:

Apple の iOS 6 における、新しい Maps 機能(iPhone 5で導入された)は同社にとって頭痛のタネとなり、また、CEO が謝罪するという事態をもたらした。 しかし Apple にとって、自身のエゴよりも重要なことは、この Mapocalypse が意味するものが、Google および Android プラットフォームとのバトルだという点だ。Forbes の Dave Einstein は、“Google vs. Apple Maps: Big-Data Battle, Cloudy Clash” で、以下のように書いている:

The battleground can be described in just two words: Big Data. Google has it; Apple is scrambling to catch up.

このバトルの背景は、たった 2つの言葉で説明できる。 つまり、Google は Big Data を使いこなし、その一方で Apple は、Big Data を急いで準備している段階にある。

G’day, North America! One example of the iOS 6 “mapocalypse.” Source: theamazingios6maps.tumblr.com

And it’s not just Maps, Einstein writes:

Einstein は、マップ以外についても、以下のように記述している:

Apple would seem to have the edge, but the more consumers use Siri, the more they may realize it’s a work in progress. Like Maps, it’s even being made fun of on TV. Android, meanwhile, has proven remarkably accurate at recognizing human speech and returning accurate answers.

Again, it’s all about Big Data. Speech recognition used to be a novelty for consumers, something to be used if you had Carpal Tunnel or another ailment that made it hard to use a computer.

…Google’s game changer used massive databases to store everything users said while voice-searching on their Android phones. Suddenly speech recognition became a data-driven, cloud service that trained itself. It compared the speech patterns of millions of users, correlated with the content and context of search queries.

Apple は、競争力を持っているように思われるだろうが、そして、多くのユーザーが Siri を使っているだろうが、それが開発途上にあることを知っているのかもしれない。 Maps と同様に、テレビでからかわれさえしている。 その一方で Android は、人間のj話し言葉を認識して、答えを返すことにおいて、驚くほど正確であると証明されている。

繰り返すが、それらすべてが、Big Data に関連する。 これまでの音声認識は、消費者に対するノベルティの類のものであり、もし Carpal Tunnel(手根管症候群)などの病気で、コンピュータを使うことが困難になったときに、使われる何かであった。

しかし、ゲーム・チェンジャーである Google は、Android Phone を使った音声検索の間に、ユザーが発するすべての言葉を、大規模なデータベースにストアするという手法を用いている。 突然に、音声認識がデータ駆動型になり、そのクラウド・サービスは、自身を洗練させ続ける。そこでは、何百万人というユーザのスピーチ・パターンが比較され、サーチ・クエリーの内容と脈略に関連づけられる。

Einstein writes: “Google’s advantage over Apple could easily continue to grow, because much of its product development ties right back into geo-location. From self-driving cars that know where they are to ‘augmented reality’ glasses right out of Philip K. Dick, the company is developing services based on location to help them improve things like Google Maps and Voice Search.”

さらに Einstein は、『 Apple に対する Google のアドバンテージは、そのプロダクト開発の大半が、ゲオ・ロケーションと緊密に結び付けられるため、容易に拡張し続けることが可能だ。 Philip K. Dick の小説にあるように、自身の位置を確認しながら自動操縦するクルマから、「複合現実感」のメガネにいたるまで、Google が開発するサービスは、自らを洗練させるためにロケーションをベースにする。そして、それは、Google Maps も、Voice Search も、同じことなのだ 』と記している

Google’s Android is the most popular mobile OS and growing like crazy, and you know the story online (read: big data collection in overdrive). This gives the company a growing jump on Apple.

Google の Android は、最も人気の高いモバイル OS であり、また、猛烈な勢いで成長している。そして、あなたはオンラインで、そのストーリーを探せる( 加速している Big Data での記事を読んでほしい)。 それにより、Google は Apple を飛び越せる。

Weigh in: Is Google’s cloud advantage playing out now with Maps and speech recognition? Is this jump on Big Data something Apple and others can ever match? Will Apple and others be forced to accept Google’s Big Data advantage and use Google tools such as Maps?

Weigh in:  Google Cloud のアドバンテージは、いまのところ、Maps と音声認識で展開しているのか? この、Big Data(のようなもの)へのジャンプにおいて、Apple などは、そもそも対抗できるのか? Apple などは、Google における Big Data のアドバンテージを受け入れ、また、Maps のような Google ツールを使うことを強いられるのか?

ーーーーー

imageいまの IT 業界に、イノベーション Big Four を見出すとしたら、Amazon/Apple/Facebook/Google なのだろうと思います。 そして、いわゆる Big Data で遅れを取っているのが Apple であり、それが Apple Maps で問題を起こしているというのは、とても興味深く、また、納得しやすい論点ですね。 image

ーーーーー

<関連>

IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Hadoop 王国は、戦国時代へと 突入する?
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Twitter が提供する、MySQL 関連のオープンソースとは
Microsoft が発表した、OSS ベースのクラウド・サービスとは?

IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する

Posted in .Selected, Big Data, Hadoop, Research by Agile Cat on July 20, 2012

IDC: Analytics a $51B business by 2016 thanks to big data
http://wp.me/pwo1E-4sK

By Derrick Harris Jul. 11, 2012
http://gigaom.com/cloud/idc-analytics-a-51b-business-by-2016-thanks-to-big-data/

_ Gigaom

The market for business analytics software grew 14 percent in 2011 and will hit $50.7 billion in revenue by 2016, according to market research firm IDC. And, that segment will grow at a 9.8-percent-a-year clip until then, IDC predicts, driven in part by the current hype around big data.

マーケット・リサーチ会社である IDC によると、ビジネス分析ソフトウェアのマーケットは2011年に 14% の上昇を見せ、また、2016 年までには $50.7 Billion に達するという。そして、このセグメントは、2016年まで 年率で 9.8% を上積みし、また、注目のキーワードである Big Data の周辺で伸びていくと IDC は予測している。

The renewed importance of analytics software comes as the idea of  big data has opened companies’ eyes as to the types of insights their data can provide far beyond what traditional analytics efforts yielded. Platform technologies such as Hadoop are letting companies store more data than ever before possible and crunch types of data not traditionally used.

Big Data が企業の視野を広げるという発想が広まるにつれて、分析ソフトウェアの重要性が見直されている。それは、伝統的な解析手法がもたらすものを、はるかに超えた洞察を提供するものとなる。 Hadoop のようなプラットフォーム・テクノロジーが、考えられないほどのデータ量に対応し、これまでは活用できなかった情報を解析していく。

Analytics software is a key component of big data strategies because it’s the stuff that lets companies actually analyze and visualize their data. Vendors in this space are having to retool their products — many products have been around for years, if not decades – for the age of big data. By IDC’s estimates, data warehousing was the fastest growing analytics area in 2011, increasing 15.2 percent, followed by analytics applications at 13.3. percent and BI tools at 13.2 percent.

分析ソフトウェアが Big Data 戦略の主要コンポーネントになるのは、企業におけるデータの解析/視覚化が、それにより実現されるからである。 この領域におけるベンダーたちは、10年とは言わずとも、数年前からのプロダクトを抱え込んでおり、この Big Data の時代に合わせて、それらの再編の迫られている。 IDC の推定によると、2011年のデータ・ウエアハウジングは、15.2% の成長を遂げている。 そして、それに続くのが、分析アプリケーションの 13.3% と、BI ツールの 13.2% である。

imageBy contrast, IDC recently predicted that the almost brand new market for Hadoop software and services will grow at about 60 percent a year until 2016, reaching $812.8 million up from $77 million today. It predicted the market for big data overall (which doesn’t include the higher-level analytics software) will reach $16.9 billion by 2015, up from $3.2 billion in 2010.

それとは対照的に、先日の IDC の調査によると、Hadoop のソフトウェアとサービスにおける、立ち上がったばかりのマーケットは、今日の $77 million から 2016年の $812.8 million へと、年率で 60% の成長が予測されている。また、Big Data 全体のマーケット(ハイレベルな解析ソフトウェアは含まない)は、2010年の $3.2 billion から、2015年には $16.9 billion にいたると予測されている。

Image courtesy of Shutterstock user marekuliasz.

Related research and analysis from GigaOM Pro:

ーーーーー

imageそれにしても、素晴らしいスピードで成長しているデータ分析市場ですね。 先日にポストした、「次世代ビジネスとして、Data as a Platform に注目する」というコンテンツでは、ーーー 企業が収集するデータの価値と、それを生み出すプロダクトにおける従来からの価値について考えるとき、広範囲におよぶ顧客と製品のデータを収集/分析することは、少なくとも、そのプロダクト以上の価値を持つようになる ーーー と指摘されていました。 そして、それを裏付けるかのような、この IDC のレポートですね。 ーーー image

ーーーーー

<関連>

クラウドで Big Data をハンドリングする 6 社の事例
Big Data を探せ! アメリカの 5つの具体的な事例とは?
これまでの Little Data のように、Big Data も価値を作り出すのか?
Big Data の実装へと走る前に、Better Data について考えるべきだ
Hadoop 王国は、戦国時代へと 突入する?
とっても ラブラブな Linux と Big Data

Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?

Posted in .Selected, Big Data, Facebook, Hadoop by Agile Cat on June 21, 2012

How Facebook keeps 100 petabytes of Hadoop data online
http://wp.me/pwo1E-4kV

By
Derrick Harris Jun. 13, 2012
http://gigaom.com/cloud/how-facebook-keeps-100-petabytes-of-hadoop-data-online/

_ Gigaom

It’s no secret that Facebook stores a lot of data — 100 petabytes, in fact — in Hadoop, but how it keeps that data available whenever it needs it isn’t necessarily common knowledge. Today at the Hadoop Summit, however, Facebook Engineer Andrew Ryan highlighted that solution, which Facebook calls AvatarNode. (I’m at Hadoop Summit, but didn’t attend Ryan’s talk; thankfully, he also summarized it in a blog post.)

Facebook が大量のデータをストアしていることは秘密ではないが( 実際には 100 Peta Byte の Hadoop)、それらのデータが必要とされるとき、どのようにして利用できるようにしているのかは、周知の事実ではない。 しかし、今日の Hadoop Summit において、Facebook Engineer である Andrew Ryan は、そのソリューションを、つまり Facebook が AvatarNode と呼んでいるものを明らかにした。 ( Hadoop Summit に来ているが、Ryan のセッションには参加できなかった。しかし、感謝すべきことに、彼はブログ・ポストで要約してくれた

imageFor those unfamiliar with the availability problem Facebook solved with AvatarNode, here’s the 10,000-foot explanation: The NameNode service in Hadoop’s architecture handles all metadata operations with the Hadoop Distributed File System, but it also just runs on a single node. If that node goes down, so does, for all intents and purposes, Hadoop because nothing that relies on HDFS will run properly.

Facebook が AvatarNode により解決した、可用性の問題につい精通していない人のために、重要な説明がある。 つまり、Hadoop アーキテクチャにおける NameNode サービスは、 Hadoop Distributed File System を用いて全てのメタデータを処理するが、それは単なるシングル・ノード上で走る。したがって、 対象となるノードがダウンするなら、Hadoop もダウンするという現実がある。なぜなら、適切に Hadoop を実行するには、HDFS に頼らざるを得ないからである。

As Ryan explains, Facebook began building AvatarNode about two years ago (hence its James Cameron-inspired name) and it’s now in production. Put simply, AvatarNode replaces the NameNode with a two-node architecture in which one acts as a standby version if the other goes down. Currently, the failover process is manual but, Ryan writes, “we’re working to improve AvatarNode further and integrate it with a general high-availability framework that will permit unattended, automated, and safe failover.”

Ryan が説明するように、Facebook は 約 2年前から AvatarNode を作り始めてきたが(James Cameron からインスパイヤーされた名前が)、そのプロダクション版が完成したのだ。 シンプルに言って、 AvatarNode は 2ノード・アーキテクチャにより、NameNode を置き換えるものであり、もしノードがダウンしても、もう一方がスタンバイ・バージョンとして機能する。 現時点において、フェイルオーバー処理はマニュアルとなるが、「私たちはさらに AvatarNode を改善し、高可用性のフレームワークと統合していく。 それにより、いまは未対応のフェイルオーバーを、安全かつ自動的に行えるようにする」と、Ryan は書いている。

AvatarNode isn’t a panacea for Hadoop availability, however. Ryan notes that only 10 percent of Facebook’s unplanned downtime would have been preventable with AvatarNode in place, but the architecture will allow Facebook to eliminate an estimated 50 percent of future planned downtime.

しかし、Hadoop の可用性という観点において、AvatarNode は 万能薬ではない。 Ryan が指摘するのは、予期せぬダウンが Facebook に生じたときに、AvatarNode により回避されるものが、たった 10% に過ぎないという点である。しかし、このアーキテクチャは、Facebook における計画的なシステムの停止を、将来において 50% ほどに低減するだろう。

Facebook isn’t the only company to solve this problem, by the way. Appistry (which has since changed its business focus) released a fully distributed file system a couple years ago, and MapR’s Hadoop distribution also provides a highly available file system. In Apache Hadoop version 2.0, which underpins the latest version of Cloudera’s distribution, the NameNode is also eliminated as a single point of failure.

ただし、こうした方式により問題を解決しようとしているのは、なにも Facebook だけではない。 Appistry (ビジネス・フォーカスを変えている)は 2年前に、完全な分散型のファイル・システムをリリースしており、また、MapR の Hadoop ディストリビューションも、高可用性のファイル・システムを提供している。 さらに、Cloudera ディストリビューションの最新バージョンを支える、Apache Hadoop Version 2 においても、NameNode におけるシングル・ポイントの問題は解消されている。

Related research and analysis from GigaOM Pro:

 

 

ーーーーー

image久々に Hadoop を取り上げてみました。 HDFS のホワイトペーパーを訳してから、もう 3年が過ぎているのですね。 そして、いまでは、欠かすことのできない、有って当たり前の存在になってきた Hadoop です。 NameNode とシングル・フェイルは、当初から欠点として指摘され、また、それぞれのディストリビュータが取り組んできたようですね。 それにしても、AvatarNode とは、Facebook らしくてカッコイイです :) ーーー __AC Stamp 2

ーーーーー

<関連>

Facebook は 30 P Bytes の Hadoop HDFS を Oregon へ移動
Twitter が提供する、Hadoop ライクな OSS とは?
Hadoop 王国は、戦国時代へと 突入する?
HDFS のスケーラビリティを考察する _1
HDFS のスケーラビリティを考察する _2
HDFS のスケーラビリティを考察する _3

%d bloggers like this: