ついに、Hadoop for Windows がデビューするらしい
Hortonworks and Microsoft bring open-source Hadoop to Windows
http://wp.me/pwo1E-5GD
By Barb Darrow – Feb 25, 2013
http://gigaom.com/2013/02/25/hortonworks-and-microsoft-bring-open-source-hadoop-to-windows/
Summary: Hortonworks Data Platform for Windows, now in beta, brings Hadoop to Excel and SQL Server (and vice versa.)
Summary: Hortonworks Data Platform for Windows はベータの段階にあるが、Excel と SQL Server に Hadoop をもたらすものとなる(その逆の見方もある)。
ーーーーー
There’s probably no better way to open up big data to the masses than making it accessible and manipulatable — if that’s a word — via Microsoft Excel. And that ability gets closer to reality Monday with the beta release of Hortonworks Data Platform for Windows. The product of a year-old collaboration between Hortonworks and Microsoft is now downloadable. General availability will come later in the second quarter, said Shawn Connolly, Hortonworks’ VP of corporate strategy, in an interview.
Big Data を大衆に広めるという話しなら、Microsoft Excel を介して、そこへのアクセスを容易にし、また、操作しやすくする以上に、良い方法は無い。 そして、月曜日の Hortonworks Data Platform for Windows ベータのリリースにより、その機能の実現に近づいた。 Hortonworks と Microsoft による、1年間のコラボレーションの結果が、すでにダウンロードできるようになっている。 その全体が利用可能になるのは、Q2 の広範囲なるだろうと、 Hortonworks の VP of Corporate Strategy である Shawn Connolly が、インタビューに答えている。
The combination should make it easier to integrate data from SQL Server and Hadoop and to funnel all that into Excel for charting and pivoting and all the tasks Excel is good at, Connolly added.
この組み合わせにより、SQL Server と Hadoop からのデータを統合し、その結果を Excel に流しこむことが容易になる。 そして、Excel の得意とする、作図やピボットといった作業で、それらのデータを利用できる、と Connolly は付け加えている。
He stressed that this means the very same Apache Hadoop distribution will run on Linux and Windows. An analogous Hortonworks Data Platform for Windows Azure is still in the works.
さらに、彼は、同じ Apache Hadoop ディストリビューションが 、Linux と Windows で走ることになると強調している。 それと同様に、Hortonworks Data Platform for Windows Azure が、開発の途上にある。
Microsoft opted to work with Hortonworks rather than to continue its own “Dryad” project, as GigaOM’s Derrick Harris reported a year ago. Those with long memories will recall this isn’t the first time that Microsoft relied on outside expertise for database work. The guts of early SQL Server came to the company via Sybase.
GigaOM の Derrick Harris が 1年前にレポートしたように、Microsoft は独自の「Dryad」プロジェクトを継続するより、Hortonworks と協調する道を選んだ。 昔のことを知っている人々は、社外のデータベース・エキスパートに Microsoft が依存することは、決して初めてのことではないと、思い出すだろう。 初期の SQL Server は、その内容を、Sybase に依存していたのだ。
The intersection of structured SQL and unstructured Hadoop universes is indeed a hotspot, as Derrick Harris reported last week, with companies including Hadoop rivals Cloudera and EMC Greenplum all working that fertile terrain. That means Hortonworks/Microsoft face stiff competition. This topic, along with real-time data tracking, will be discussed at GigaOM’s Structure Data conference in New York on March 20-21.
Derrick Harris が先週に取り上げたように、構造化された SQL と、非構造の Hadoop が交わる点は、ほんとうの意味でホット・スポットである。そして、Hadoop のライバルである、Cloudera や EMC Greenplum などが、その興味深い領域に取り組んでいる。 それは、Hortonworks / Microsoft 連合軍が、厳しい戦いに直面することも意味する。 このトピックおよび、リアルタイム・データ・トラッキングは、3月 20-21日に New York で開催される、GigaOM Structure Data カンファレンスで解説される。
Upcoming: Structure:Data, Mar. 20-21, 2013, New York, Register by March 1 and save $200! More upcoming conferences.
Related research
- Takeaways from the second quarter in cloud and data July 2012
- The importance of putting the U and I in visualization May 2012
- A near-term outlook for big data March 2012
ーーーーー
この Hortonwoks の Hadoop ですが、どのような形で Microsoft がまとめ上げるのか、とても気になっていました。Windows Azure の一部として、クラウドだけに特化するのであれば、Windows へのポーティングは不要です。 しかし、オンプレミスを前提とした、パッケージ化を考えるなら、Windows 版の Hadoop が不可欠です。 まぁ、どちらかをハッキリさせてというより、中庸をめざして、まずは、パッケージ化を進めていくという判断なのでしょう。いずれにせよ、OSS とは言え、Google の頭脳から生まれた Hadoop を、へんな拘りをもたずに、Microsoft が使うというのは、とても良いことだと思います。![]()
ーーーーー
<関連>
Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Hadoop 王国は、戦国時代へと 突入する?
Google の Knowledge Graph は、スタートレックを目指す!
Larry Page on Google’s Knowledge Graph: ‘We’re still at 1% of where we want to be’
http://wp.me/pwo1E-5FG
January 22, 2013 – John Koetsier
http://venturebeat.com/2013/01/22/larry-page-on-googles-knowledge-graph-were-still-at-1-of-where-we-want-to-be/
Google’s Knowledge Graph has a long, long way to go. At least according to Google CEO Larry Page.
Google の Knowledge Graph は、まだまだ先の長い話である。 少なくとも、Google の CEO である Larry Page は、そう考えている。
“We’re still in the early stages,” Page said on Google’s fourth-quarter 2012 earnings call. “We’re still at 1 percent of where we should be.”
『 私たちは、まだ、アーリー・ステージにいる。 そして、達成すべきことの、まだ 1% にしか届いていない 』と、Google の 2012年 Q4 収支説明会で Page は発言している。
Knowledge Graph is Google’s attempt to provide answers beyond simple keywords and queries. Answers, for instance, that an intelligent person or entity might provide and that demonstrate some degree of understanding of the concepts behind the questions.
Knowledge Graph は、シンプルなキーワードとクエリーを超えたレベルで、答えを提供しようとする Google の試みである。 たとえば、知的な人材や実体が回答するようなものとなり、また、問題の背景となる概念を、いくつかの視点から理解させていく。
In order to do that, Google has assembled a massive and growing “semantic network” of at least 570 million objects and 18 billion facts about and relationships between them, from sources such as the CIA World Factbook, Wikipedia, and Freebase, an entity graph of “people, places, and things” that is built the same way Wikipedia is: by interested volunteers.
それを実現するために Google は、少なくとも 5億7000万のオブジェクトと、実在している 180億のファクト、そして両者のリレーションシップの中で、成長し続ける膨大な Semantic Network を組み上げていくことになる。そのための情報源は、CIA World Factbook や、Wikipedia、Freebase などであり、そこに 『 People、Places、Things 』の Entity Garaph が加えられる。 なお、この Entity Graph は、Wikipedia と同じ方式により、つまり、興味を持つボランティアにより、構築されていく。
Those facts about things like “Lamborghini Countach,” “bike,” or “cat” — and the connections between them =– are what Google hopes to use to improve search results and make searching more natural, similar in some ways to how Wolfram Alpha and Siri work, at least in their limited contexts. Ultimately, the Star Trek experience would be nice: simply asking computers natural questions.
サーチ結果を改善するために Google が活用したいものは、たとえば、“Lamborghini Countach”、“bike”、“cat” といった Things に関するファクトと、それらの関係となる。 そして、少なくとも限定された背景の中で、たとえば Wolfram Alpha や Siri が動くようなかたちで、より自然なサーチを作り上げていく。 究極的には、コンピュータに対して自然に質問するような、Star Trek エクスペリエンスが望まれるだろう。
That’s critical for Google, as Page acknowledged in a rare well-duh moment, saying that ”getting people correct answers is really important for our business.” But he also laid a finger on one of Google’s biggest challenges with Knowledge Graph: internationalization, saying that it was “hard work.”
当然のことのように、『 人々のために正しい答えを得ることが、私たちのビジネスとって、本当に重要なことである』と、珍しくも Page が素早く認めたのは、それが Google にとって、きわめて重要なことだからである。 さらに、彼は、Knowledge Graph を用いた、Google における大きなチャレンジにも目を向けている。 それは、Internationalization であり、きわめて「困難な仕事」であると発言している。
However, if humanity ever develops something that approaches artificial intelligence, it’ll probably be from something like Google Knowledge Graph. Perhaps when Page and team are at something like 75 percent.
しかし、もし人類が、人工知能にアプローチするために、何かを開発していくなら、Google Knowledge Graph のようなものから、始まっていくと思われる。 おそらく、Page のチームが 75% のレベルに達したとき、それが始まるのだろう。
ーーーーー
Facebook に Open Graph があるなら、Google には Knowledge Graph があるというわけですね。この二社のような、他とは一線を画する、きわめて膨大なデータを蓄積しているサイトが、この方向へと向かうのは、とても自然なことだと思います。そして、それを実現するために、ハードウェア・インフラの進化も大きく寄与すると推測します。 先日の Open Compute の抄訳にある 『 サーバーの中でラックを走らせる 』という、Intel の 100 GBit 光コネクタなどが実用化されるにつれて、スタートレックへの道筋も見えてくるように思えます。でも、その前に、セマンティック Web の具体化であり、Web 3.0 への回答なんでしょうね。 ![]()
ーーーーー
<関連>
Facebook の Graph Search について、簡単だが説明したい : GigaOM
Facebook の Open Graph を使うなら、Kinvey の BaaS が良さそうだ
Facebook が Open Graph アクションをアップデート
Facebook – Open Graph Beta の概説
Facebook の Graph Search について、簡単だが説明したい : GigaOM
A really tiny explanation of how Facebook’s Graph Search works
http://wp.me/pwo1E-5×6
Jan 15, 2013 – by Om Malik
http://gigaom.com/2013/01/15/a-really-tiny-explanation-of-how-facebooks-graph-search-works/
Facebook’s Lars Rasmussen and Tom Stocky gave us a brief glimpse into how the new Graph Search works, but kept the lid on details as to how much computing the new search will require. From the looks of it, this is a big infrastructure challenge.
Facebook の Lars Rasmussenと Tom Stocky の説明により、この新しい Graph Search の一面が垣間見えてきたが、いったい、どれだけのコンピューティングが、そのために必要となるのかという観点は、その詳細まで語られていない。そこに注目してみれば、きわめて大規模な、インフラストラクチャに関するチャレンジであることが分かる。
I spent the morning listening to Mark Zuckerberg and company talk about Facebook’s next big product, Graph Search, which allows folks to search (for now) using people, places, photos and interests as search vectors. The reaction to the news ranges from boredom to muted to wild exultation.
Mark Zuckerberg による、Facebook の次期ビッグ・プロジェクトの説明を聞くために、私の今朝は費やされた。それにより、人々は、people/places/photos/interests などを Search Vector として用いた検索を行えるようになる。 そして、このニュースに対する反応は、退屈だというものから、荒々しい歓喜までの、広い範囲に及んでいる。
However, the event left me with more question than answers. While Danny Sullivan’s overview answers many of those questions, I still wasn’t clear as to how it worked.
私にとって、この イベントは、いくつかの理解を与えてくれたが、それ以上の質問が残すものとなっている。それらの疑問について、Danny Sullivan が答えを提供しているが、どのように Graph Search が動くのかは、まだ明白になっていないと感じる。
So, how does this Unicorn based Graph Search work? From what I understand, there are two parts to the search, both built in-house. The first part is natural language processing based, which is essentially driven by the users’ questions. The second part is the one that brings back the answers.
この、Graph Search ベースの Unicorn は、どのように機能するのか?私の理解は、この検索は、どちらもインハウスで構築された、2つのパートで構成されている。最初のパートは、自然言語処理であり、それは基本的に、ユーザーの質問によりドライブされる。そして 第2のパートは、それに対する答えを返すものである。
The second part is built on an internal retrieval tool called Unicorn that has been in use at Facebook for a while. Facebook has created an index of all objects on the social platform. On the Facebook Engineering blog, Lars Rasmussen (who along with Tom Stocky) was responsible for building Graph Search writes:
この 第2のパートは、このところ Facebook 社内で使われていた、Unicorn と呼ばれる検索ツール上に構築されている。Facebook は、このソーシャル・プラットホーム上で、すべてをインデックス化している。Facebook Engineering ブログにおいて Lars Rasmussen(と、Tom Stocky)は、Graph Search の構築について、以下のように答えている:
Using traditional information-retrieval systems to mix keyword and structured queries is fairly well understood. But we needed the system also to find answers more than a single connection away, such as “restaurants liked by my friends from India.” Here we were in luck: one of our three existing systems, Unicorn, was designed exactly with this in mind.
キーワードと構造化されたクエリーの組み合わせを用いる、従来からの情報検索システムは、かなり十分に理解されている。しかし、このシステムに要求したものは、たとえば、“restaurants liked by my friends from India” というような、シングル・コレクションの方式以上の、答えを見つけ出すものでもある。私たちがラッキーだったのは、3つの既存システムの 1つである Unicorn が、その点を考慮して設計されていた点にある。
The search infra team decided on a two-stage approach: first build out Unicorn to manage all the existing search experiences on the site and then, build out Unicorn further to meet all the requirements of Graph Search. Today, we are far enough along now to launch Graph Search as a beta, but we’re still missing is the ability to index all of the posts and comments people have shared on Facebook–they make up by far the biggest dataset we have for Graph Search and Unicorn.
私たちの Search インフラ・チームは、2つのステージというアプローチをとることに決めた。最初に、すべての既存の検索エクスペリエンスを管理するために、Unicorn を構築する。 それに続いて、Graph Search の全要件を満たすために、Unicorn を強化していく。そして、今日、ベータとして Graph Search を立ち上げるに至る、十分な蓄積を達成している。しかし、人々が Facebook 上で共有している、すべての Photo および Comment に対して、インデックスを付けていく機能が欠落している。それらは、Graph Search と Unicorn 上に置かれる、最大級のデータセットにより達成される。
At a very rudimentary level, Rasmussen in a call later explained that say when we type a query say, “Restaurants liked by my friends from India in San Francisco,” using natural language processing an aggregator tool takes the query and parses it into keywords again which searches are conducted. So “Restaurants,” “San Francisco,” and “Friends from India” become queries whose results are fetched and further sorted to give us the final answer. It is not new, except the scale of data on which such queries are being run is possibly a new (and rising) high watermark.
後に Rasmussen に電話したとき、とても基本的なレベルについて説明してくれた。それは、私たちが “Restaurants liked by my friends from India in San Francisco” というクエリーを入力したときの例であるが、自然言語処理を用いる アグリゲータ・ツールは、そのクエリーの取得と解析を行い、検索を実行するためのキーワードに分解していく。したがって、“Restaurants” と “San Francisco” と “Friends from India” がクエリーとなり、その結果としてフェッチが行われ、さらには、最終的な答えがストアされる。それらのクエリーのスケールが、新たな高水準を実現していくことを除いて、新しいものはない。
Rasmussen acknowledged that there are a lot of unknowns for the company and it is still not clear what kind of computing resources are going to be required for Graph Search at scale. Facebook plans to learn from phased beta rollout and do compute-resource planning based on that, he said.
Rasmussen は、たくさんの未知の領域が、同社にとって残されていると認めている。 つまり、どのようなコンピューティング・リソースが、そのスケールで Graph Search を実現するために必要になるのか、その辺りが明らかにされていない。Facebook はベータのフェーズを実施することで、そのために必要なコンピュート・リソースを計画していくと、彼は発言している。
My take: This is going to be a big infrastructure challenge, considering Lars and his cohorts want to keep the latency to below two seconds. Rasmussen pointed out that the “ranking algorithm” for results is going to keep improving as more and more people use the search. With as many as a billion searches on Facebook every day, even few million queries are going to be enough to help fine tune this ranking algorithm.
以下は、私見である:それは、きわめて大規模なインフラストラクチャの挑戦を伴う。 なぜなら、Lars とチームは、レイテンシを 2秒以下に抑えたいと考えているからだ。Rasmussen は、膨大な数のユーザーたちが、この検索を利用できるようにするために、サーチ結果の “ranking algorithm” を改善し続けていくと言っている。
Facebook では、毎日のように 10億回の検索が行われており、その “ranking algorithm” のためにも、数百万回も実行されるクエリーを、最適化しなければならない。
As for rest of my questions — I guess I will have to wait for the company to share details “about this challenge on the engineering blog soon,” as Facebook said in its blog.
そして私には、いくつかの疑問が残されている。しかし、“about this challenge on the engineering blog soon” と、Facebook がブログで言っているように、それらの詳細については、まだ、待たなければならないようだ。
Related SUBSCRIBER CONTENT
* The fourth quarter of 2012 in cleantech January 2013
* How HR can make the case for workforce analytics January 2013
* The 2013 task management tools market January 2013
ーーーーー
Facebook の最大の強みは、Like などのアクションに応じて、ユーザー間にコネクションを作っていく能力にあるはずです。 そして、Facebook がユーザーたちを結びつけるスレッドには、広告を販売していく能力まであるわけです。この数年において、Facebook が導入してきた Open Graph が、最大のシングル・イノベーションだとすると、この Graph Search のようなスケールのテクノロジーも、その派生の1つだと考えることができます。 今日は、これから、文中でも触れている Facbeook インフラの、OpenCompute Summit に行ってきます。 この両者の結びつきを考えると、というか、想像すると、とてもワクワクしてきます。
ーーーーー
<関連>
Facebook が Open Graph アクションをアップデート
Facebook – Open Graph Beta の概説
Facebook の Open Graph を使うなら、Kinvey の BaaS が良さそうだ
みんなの先生 James Hamilton 特集
Agile_Cat にポリシーがあるなら、大きく影響されているはず・・・
http://wp.me/pwo1E-5j9
James Hamilton という人を知ったのは、2009年の春のことです。 とある仕事の流れの中で、アメリカのデータセンター事情を調べることになり、ヤミクモに Google で検索していたら、彼のブログに辿り着いたのです。 そして、『 RDBMS Losing Workloads in the Cloud 』を紹介したのですが、振り返ってみれば、このポストが、その後の Agile_Cat の方向性を定めたことになります。日本語のタイトルは 『 役割を減じる Cloud での RDBMS 』 にしました。
たった数枚のスライドで構成されるブログ・ポストですが、スケールという面からみて、これまでのエンタープライズ・サーバーの延長線上にクラウドは成立せず、新たな角度からのアプローチが必要という、いまでは常識になっていることを、ハッキリと Agile_Cat に伝えてくれたのが、このポストなのです。
そして、その年の秋には、NYC で開催された Hadoop World に行く事になり、いわゆる Big Data の最前線を覗き見ることができました。 いま考えてみると、James Hamilton さんのブログを見なければ、NYC へ行く事もなかったでしょうし、その時に知り合った、いまの仕事仲間の人たちとも、ご縁がなかったことになります。 う~ん、どう考えても、Agile_Cat の恩人ですね! ![]()
2010年には、彼の重要な論文である 『 Architecture for Modular Data Centers 』を、ITMedia から出してもらいました。Agile_Cat などというブログではなく、大手のメディアに紹介して欲しかったのです。日本語のマトメ・ページは、こちらになります。
・・・というわけで、前置きが長くなりましたが、James Hamilton 特集として、以下をポストをリスト・アップしました。 時間が経っている割には、訳せたポストが少ないのですが、それぞれの内容が、とても濃いというのが、その理由なのかもしれません。 お時間のあるときに、1本、1本、ぜひ、ゆっくりと お読みください。
Jan 17, 2010: プライベート・クラウドに未来はない
Mar 9, 2010: イベンチュアル・コンシステンシーはお好き?
Apr 14, 2010: Stonebraker と CAP Theorem と Databases
May 31, 2010: Blackberry のクラウドを探る
Nov 21, 2010: 46MW を湖水で冷却し PUE 1.1 :アルプスの巨大 DC
Dec 22, 2010: GPGPU を用いたソートについて考える
Jun 9, 2011: Amazon データセンターについて
Oct 13, 2011: Microsoft が発表した、OSS クラウド・サービスとは?
Oct 25, 2011: Facebook メッセージを支えるストレージ・インフラを解説
Nov 2, 2011: 効率の良いデータセンター運用のコツとは?
Jan 18, 2012: Amazon DynamoDB の 超弩級 クラウド NoSQL 感覚
Aug 12, 2012: Facebook と Google の サーバー保有台数を推測する
ーーーーー
そんなわけで、James Hamilton 先生に引っ張られるかのように、どんどんとクラウド・インフラの世界に傾いていった Agile_Cat であり、2011年の秋には再び NYC を訪れることになりました。 この時は、Facebook の OpenCompute Summit だったのですが、そのキーノート・スピカーとしてアサインされていたのが、James Hamilton さんだったのです。恐る恐る自己紹介してみると、『 お前が Agile_Cat かぁ~ 』という感じで、とても気さくに対応してくれたのが嬉しかったです。 そして、その後も、Sakura Ishikari を紹介してくれたりと、いつも日本を気にかけてくれる James Hamilton 先生には、ほんと、心の底から感謝なのです。
ーーーーー
<関連>
みんなが 期待の Open Cloud 特集
みんなが 注目の SDN/OpenFlow 特集
みんなの 先生 James Hamilton 特集
みんなを 支える Data Center 特集
2012 – 2013 海外 マトメ・ポストを、マトメてみました 62本
泣いて、笑って、驚いて、今年も暮れる WeekEnd 特集
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
Apple’s ‘Mapocalypse’ Highlights Big Data Battle
http://wp.me/pwo1E-54a
October 3, 2012 – Mike Barton
http://www.wired.com/insights/2012/10/mapocalypse-big-data-battle/
The new Maps feature in Apple’s iOS 6 (launched with iPhone 5) has caused Apple a headache, and even led to its CEO apologizing. But more important than Apple’s ego is what the “mapocalypse” means in its bigger battle with Google and its Android platform. Forbes’ Dave Einstein writes in “Google vs. Apple Maps: Big-Data Battle, Cloudy Clash”:
Apple の iOS 6 における、新しい Maps 機能(iPhone 5で導入された)は同社にとって頭痛のタネとなり、また、CEO が謝罪するという事態をもたらした。 しかし Apple にとって、自身のエゴよりも重要なことは、この Mapocalypse が意味するものが、Google および Android プラットフォームとのバトルだという点だ。Forbes の Dave Einstein は、“Google vs. Apple Maps: Big-Data Battle, Cloudy Clash” で、以下のように書いている:
The battleground can be described in just two words: Big Data. Google has it; Apple is scrambling to catch up.
このバトルの背景は、たった 2つの言葉で説明できる。 つまり、Google は Big Data を使いこなし、その一方で Apple は、Big Data を急いで準備している段階にある。
G’day, North America! One example of the iOS 6 “mapocalypse.” Source: theamazingios6maps.tumblr.com
And it’s not just Maps, Einstein writes:
Einstein は、マップ以外についても、以下のように記述している:
Apple would seem to have the edge, but the more consumers use Siri, the more they may realize it’s a work in progress. Like Maps, it’s even being made fun of on TV. Android, meanwhile, has proven remarkably accurate at recognizing human speech and returning accurate answers.
Again, it’s all about Big Data. Speech recognition used to be a novelty for consumers, something to be used if you had Carpal Tunnel or another ailment that made it hard to use a computer.
…Google’s game changer used massive databases to store everything users said while voice-searching on their Android phones. Suddenly speech recognition became a data-driven, cloud service that trained itself. It compared the speech patterns of millions of users, correlated with the content and context of search queries.
Apple は、競争力を持っているように思われるだろうが、そして、多くのユーザーが Siri を使っているだろうが、それが開発途上にあることを知っているのかもしれない。 Maps と同様に、テレビでからかわれさえしている。 その一方で Android は、人間のj話し言葉を認識して、答えを返すことにおいて、驚くほど正確であると証明されている。
繰り返すが、それらすべてが、Big Data に関連する。 これまでの音声認識は、消費者に対するノベルティの類のものであり、もし Carpal Tunnel(手根管症候群)などの病気で、コンピュータを使うことが困難になったときに、使われる何かであった。
しかし、ゲーム・チェンジャーである Google は、Android Phone を使った音声検索の間に、ユザーが発するすべての言葉を、大規模なデータベースにストアするという手法を用いている。 突然に、音声認識がデータ駆動型になり、そのクラウド・サービスは、自身を洗練させ続ける。そこでは、何百万人というユーザのスピーチ・パターンが比較され、サーチ・クエリーの内容と脈略に関連づけられる。
Einstein writes: “Google’s advantage over Apple could easily continue to grow, because much of its product development ties right back into geo-location. From self-driving cars that know where they are to ‘augmented reality’ glasses right out of Philip K. Dick, the company is developing services based on location to help them improve things like Google Maps and Voice Search.”
さらに Einstein は、『 Apple に対する Google のアドバンテージは、そのプロダクト開発の大半が、ゲオ・ロケーションと緊密に結び付けられるため、容易に拡張し続けることが可能だ。 Philip K. Dick の小説にあるように、自身の位置を確認しながら自動操縦するクルマから、「複合現実感」のメガネにいたるまで、Google が開発するサービスは、自らを洗練させるためにロケーションをベースにする。そして、それは、Google Maps も、Voice Search も、同じことなのだ 』と記している。
Google’s Android is the most popular mobile OS and growing like crazy, and you know the story online (read: big data collection in overdrive). This gives the company a growing jump on Apple.
Google の Android は、最も人気の高いモバイル OS であり、また、猛烈な勢いで成長している。そして、あなたはオンラインで、そのストーリーを探せる( 加速している Big Data での記事を読んでほしい)。 それにより、Google は Apple を飛び越せる。
Weigh in: Is Google’s cloud advantage playing out now with Maps and speech recognition? Is this jump on Big Data something Apple and others can ever match? Will Apple and others be forced to accept Google’s Big Data advantage and use Google tools such as Maps?
Weigh in: Google Cloud のアドバンテージは、いまのところ、Maps と音声認識で展開しているのか? この、Big Data(のようなもの)へのジャンプにおいて、Apple などは、そもそも対抗できるのか? Apple などは、Google における Big Data のアドバンテージを受け入れ、また、Maps のような Google ツールを使うことを強いられるのか?
ーーーーー
いまの IT 業界に、イノベーション Big Four を見出すとしたら、Amazon/Apple/Facebook/Google なのだろうと思います。 そして、いわゆる Big Data で遅れを取っているのが Apple であり、それが Apple Maps で問題を起こしているというのは、とても興味深く、また、納得しやすい論点ですね。 ![]()
ーーーーー
<関連>
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Hadoop 王国は、戦国時代へと 突入する?
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Twitter が提供する、MySQL 関連のオープンソースとは
Microsoft が発表した、OSS ベースのクラウド・サービスとは?
DynamoDB および、ホット SSD + コールド S3 というパターン
DynamoDB Talk Notes and the SSD Hot S3 Cold Pattern
http://wp.me/pwo1E-4Cy
Monday, May 14, 2012
http://highscalability.com/blog/2012/5/14/dynamodb-talk-notes-and-the-ssd-hot-s3-cold-pattern.html
My impression of DynamoDB before attending a Amazon DynamoDB for Developers talk is that it’s the usual quality service produced by Amazon: simple, fast, scalable, geographically redundant, expensive enough to make you think twice about using it, and delightfully NoOp.
Amazon DynamoDB for Developers トークに参加する前に、私が持っていた DynamoDB の印象は、Amazon が提供する通常品質のサービスであるというものだった。 つまり、シンプル/高速/スケーラブル/地理的冗長性/再び利用しようと思わせる価格/とても面白い NoOp などである。
After the talk my impression has become more nuanced. The quality impression still stands. Look at the forums and you’ll see the typical issues every product has, but no real surprises. And as a SimpleDB++, DynamoDB seems to have avoided second system syndrome and produced a more elegant design.
そして、そのトークを聞いた後、私は微妙な印象を持ち始めた。 品質に関する印象は、依然として変わらない。このフォーラムに注目すれば、すべてのプロダクトが持っている典型的な問題が判るだろうが、それが本当の驚きというわけではない。 そして、SimpleDB++ としての DynamoDB は、2番目のシステム・シンドロームを回避し、さらにエレガントなデザインを生み出したように思える。
What was surprising is how un-cloudy DynamoDB appears to be. The cloud pillars of pay for what you use and quick elastic response to bursty traffic have been abandoned, for some understandable reasons, but the result is you really have to consider your use cases before making DynamoDB the default choice.
驚くべきことは、いかに DynamoDB が、非クラウド的だと思えるかという点である。つまり、クラウドの中心に置かれるものは、使ったものに対する支払いであり、また、爆発的なトラフィックに対して、迅速かつエラスティックに反応するものだという要件が、いくつかの理解できる理由により捨て去られている。しかし、そこに結論があるのではなく、ディフォルトとして DynamoDB を選択にする前に、誰もが自身のユース・ケースについて、真剣に検討しなければならない点にある。
Here are some of my impressions from the talk…
このトークに対する、いくつかの、私の印象を以下にまとめる…
- DynamoDB is a clean well lighted place for key-value data. The interface is simple, consisting of operations like CreateTable, PutItem, BatchWriteItem, GetItem, Scan, Query. Transactions are not supported in the batch write. Access is by a primary key and Composite Hash Key / Range Keys. The max size for data is 64KB. It’s schemaless. The supported type are string and numbers and sets of strings and numbers. Reads can be consistent, or inconsistent, writes are always consistent, consistent reads cost 2x more.
- DynamoDB is a clean well lighted place for key-value data. インタフェースはシンプルであり、CreateTable/PutItem/BatchWriteItem/GetItem/Scan/Query といったオペレーションより構成される。 Transaction は、バッチ記述ではサポートされない。 Access が主キーであり、Composite Hash Key/Range Keys がある。 データのための最大サイズは、64 KB である。 スキーマレスである。 サポートされるタイプは、String と Number であり、この2つの組み合わせも可能である。 Read は、コンシステント/非コンシステントを選べるが、Write はコンシステントのみである。 なお、コンシステント Read のコストは 2倍以上になる。
- Operations are usually under 10 msecs, typically 3-4 msecs. Typical is ~1.5 msecs for the network path and ~1.5 msecs for the database component, depending on the size of your data. Customers wanted one or two millisecond response times so Amazon took the radical step of using SSD for storage. Initially they ran into performance problems due to SSD garbage collections cycles. Extensive work with vendors solved the problem, but because of IP issues we have no idea how.
- Operations are usually under 10 msecs, typically 3-4 msecs. 一般に、ネットワーク・パスに ~1.5 msecs を要し、データベース・コンポーネントに ~ 1.5 msecs を要するが、それぞれのデータサイズに依存するものとなる。 顧客たちが 1~2 msecs を要求したため、Amazon はストレージに SSD を用いるという、急進的な対応を取っている。 当初、SSD のガーベジ・コレクション・サイクルに起因する、パーフォマンス上の問題に遭遇している。 ベンダーと協調した大規模な作業により問題は解決したが、IP 問題については、どのように処理したのか分からない。
- Provisioned throughput model. This is the most innovative feature of DynamoDB and its most problematic, taking the “make it simple” Apple design aesthetic to 11. Programmers are in charge of specifying the number of database requests per second their application should be capable of supporting. DynamoDB does the rest. It automatically spreads data over the number of servers required to provide the desired performance. You can change the rate on the fly, but the catch is it can take up to 10 minutes for the system to support the new request rate.
- Provisioned throughput model. これは、DynamoDB における最もイノベイティブな特徴であり、また、最も解決の困難な問題でもある。 それは、Apple の Ver 11 へ向けた、審美的な “make it simple” デザインにも通づる。 プログラマーは、自身のアプリケーションがサポートすべき、毎秒あたりのデータベース・リクエスト数を指定するという責任を持つ。 そして、その残りは DynamoDB が処理していく。 そして、必要なパーフォマンスを提供するために、大量のサーバーに対して、自動的にデータを展開していく。その比率は On The Fly で変更できる。 しかし、システムが新しいリクエスト・レートをサポートするには、最大で 10 分を要することがある。
- Solving the noisy neighbor problem. A problem with the cloud is noisy neighbors can ruin the performance of other neighbors. To ensure DynamoDB can meet SLAs in a multi-tenancy environment, a maximum size restriction of 64KB is put on values. In addition, requests are priced in units of Read/Write Capacity equal to one read (or write) per second of capacity of 1KB in size. By fixing the data sizes and requiring the specification for a guaranteed throughput rate, DynamoDB has all the information it needs to schedule workloads in such a way as they can meet their SLAs with a high degree of confidence.
- Solving the noisy neighbor problem. クラウドにおける問題は、ノイジーな隣人のせいで、パフォーマンスを台無しにされる可能性である。 マルチ・テナント環境において、DynamoDB の SLA クリアを保証するために、最大で 64KB の制限が価値を与える。 それに加えて、 Read/Write Capacity のユニットで定められたリクエストの料金は、1KB の容量を 毎秒 1 Read(もしくは 1 Write)を実行するケースに等しくなる。 データ・サイズを固定し、また、保証されたスループット・レートを指定することで、DynamoDB は ワークロードのスケジューリングに必要な全情報を取り込み、高度な信頼性で SLA に合致させさていく。
- Pay for what you don’t use. A downside of the provisioned throughput model is you pay for the throughput you have reserved, not the traffic you have actually generated. From Amazon’s perspective they are reserving the capacity so in a sense you are using the capacity, but this is the same capacity planning issue that made the elastic nature of the cloud so attractive to begin with. How do you specify the correct throughput? If you underspecify you lose customers. If you over specify you lose money. And if your traffic is at all bursty you technically would have to reserve the peak usage, which is fiscal insanity. You can adjust your throughput reservation, but you can’t do it fast enough to meet a burst, and the drop notification mechanisms are clumsy, you get an email alert and then have to do the adjustment by hand.
- Pay for what you don’t use. プロビジョニングされたスループット・モデルの欠点は、実際には自分で生成していないトラフィックに対しても、リザーブされたスループットに対して支払いが生じる点である。 Amazon の視点から見ると、ユーザーが容量を用いているという面で、その容量がリザーブされていることになる。 しかし、それは、エラスティックという魅力的なクラウドの性質にも通ずる、キャパシティ・プランニングにおける共通の問題でもある。適正なスループットを、そのように指定するのか? 過小に指定すると、顧客を失う。 過大に指定すると、コストを失う。 そして、すべてのトラフィックが突発的なものなら、そのピークに合わせてリザーブが必要になるだろうが、それは、会計的に破綻している。スループットのリザーブに関しては調整が可能であるが、突発的なピークに対して迅速に対応することは困難である。そして、劣化のノーティフィケーション・メカニズムは不器用であるため、電子メールによる警告に気を配らせて、また、マニュアルで調整をしなければならない。
Some cool features. DynamoDB supports both an increment operation and compare-and-swap, both of which are quite useful.
- Some cool features. DynamoDB は、Increment Operation と Compare-and-Swap をサポートするが、どちらも、きわめて有用である。
- Not NoOp. Hard stuff is left for developers to solve. You’ll still have operations with DynamoDB, it will just be in different areas.
- Not NoOp. Hard stuff is left for developers to solve. 依然として、DynamoDB ではオペレーションが必要であるが、それは少し異なるエリアでのものとなる。
- A lack of transactions means developers have to implement idempotency, garbage collection, and pay for all the accesses needed to implement features that DynamoDB should be supporting. Secondary indexes and search are not supported, for example, and are difficult and error prone to implement without direct system support.
- A lack of transactions. デベロッパーはガーベジ・コレクションをベキ等で実装し、DynamoDB がサポートするはずの機能に対して、実装で必要とされる全アクセスに対応しなければならない。 たとえば、セカンダリ・インデックスとサーチがサポートされていないが、ダイレクトにシステムをサポートすることなく、実装することは困難であり、また、エラーを起こしやすい。
- Hot keys / Hot partitions are not supported. The provisioning model is not really automatic as hot keys are not automatically load balanced. If a lot of reads are going to one key or partition it’s up to the programmer to fix the problem, DynamoDB won’t do it. The NoOp promise falls a little short here.
- Hot keys / Hot partitions are not supported. ホット・キーが自動的にロード・バランスされないようにするため、このプロビジョニング・モデルの自動化は、実際のところ達成されていない。 多数の Read が 1つのキーやパーティションに対して行なわれる場合には、その問題の解決はプログラマに委ねられ、また、DynamoDB が対応することはない。 NoOp の約束は、ここでは充分とはいえない。
- Backups not supported. To backup data you have to use Hadoop. This is a problem that will likely be fixed, but it’s a hole for now.
- Backups not supported. データのバックアップには、Hadoop を使う必要がある。 これは、これから修正される問題点であるが、現時点では弱点である。
- > 64KB. Tricks to store data greater than 64KB without transactions invite corruption and impacts throughput.
- >64KB. トランザクションを壊すことなく、また、スループットに影響を与えることなく、64KB 以上のデータをストアするためのトリックである。
- The Intellectual Property shield. The talk was annoying at certain points because the IP excuse was used to not answer certain questions. Is, for example, hinted handoff used? Sorry, that’s IP. An advantage many other products have is that they are open. If you want to know something about Cassandra, VoltDB, Riak, Redis, MongoDB, etc, you’ll get the straight dope.
- The Intellectual Property shield. いくつかの質問に対して、IP だからという言い訳が用いられたことが、いらだちの種になった。たとえば、Hinted Handoff は使われているかという質問に、 すみません IP ですと、切り返される。 数多くのプロダクトが有するアドバンテージは、それがオープンであることだ。もし、Cassandra/VoltDB/Riak/Redis/MongoDB などについて何かを知りたいのなら、本当の情報が得られるだろう。
- Limited to a single region. Several questions were about the need to operate across multiple regions, but if Amazon built this feature in it would become a SOP, so Amazon quite rightly stays out of the multi-region business.
- Limited to a single region. マルチ・リージョンをまたいだ運用について、いくつかの質問があったが、そのための機能を Amazon が構築するなら、それが SOP(Standard Operating Procedure)になるだろう。 したがって、Amazon は慎重であり、このマルチ・リージョン・ビジネスに立ち入らないようにしている。
- Use Hive to browse data. DynamoDB is targeted at large data sets so you need to use Hadoop/Hive to take a look at the data. Eventually more functionality will be built into the dashboard, but it’s a powerful way to look at your data, just factor this kind of management traffic into your throughput requirements.
- Use Hive to browse data. DynamoDB は、広大なデータセットをターゲットにしているため、データを参照するために、Hadoop/Hiveを用いる必要がある。 最終的には、より多様な機能がダッシュボードに組み入れられ、データ参照のためのパワフルな方式が実現されるが、それが、スループット要件におけるトラフィック管理の要因となる。
Store Hot Data in DynamoDB, Cold Data in S3, and use Hadoop/Hive to Make them Look the Same
One of the most interesting ideas of the talk is how a new Hadoop/Hive ecosystem is being used to act as a unifying bridge between DynamoDB and S3. The idea is that data stored in DynamoDB costs 10 times as much as data in S3, so what you want to do is move historical or cold data to S3 as soon possible and just keep the hot data in DynamoDB. For example, time series data is often stored by day, week, or month, so rather than keep all that historical time series data in DynamoDB, move it to S3 and save some money.
このトークで、面白しろかったものに、DynamoDB と S3 を統一するブリッジとして、どのように Hadoop/Hive エコシステムが役割を果たすかというアイデアがあった。この発想は、DynamoDB コストにストアされたデータは、S3 と比べて 10倍のコストが必要というところから始まる。したがって、何を行いたいかといえば、ヒストリカルなコールド・データを、可能な限り早期に S3 へと移行させ、ホット・データは DynamoDB の保持し続けることだ。 たとえば、時系列データは大半のケースにおいて、日/週/月の単位でストアされる。 したがって、すべてのデータを DynamoDB に保持し続けるより、S3 に移動したほうがコストを抑えられる。
The problem is now you have two very different ways to access data. DynamoDB is purely programmatic access via tables and S3 is via files. How do you bridge that gap without writing a lot of code?
現時点の問題は、データにアクセスするための、きわめて異なる 2つの方式が存在することだ。 DynamoDB はテーブルを介して、プログラムでピュアにアクセスするが、S3 はファイルによりアクセスする。 大量のコードを書くことなく、どのようにして、このギャップをブリッジするのか?
Using EMR and Hive sophisticated queries can be run against data in DynamoDB and S3, allowing a common data access layer against the cheapest storage option. It’s a good example of how well all these tools work together to provide a powerful ecosystem.
EMR と Hive を用いる洗練されたクエリーを、DynamoDB と S3 に対して実行できる。それにより、最も安価なストレージ・オプションに対する、共通のデータ・アクセス・レイヤーを実現する。 それは、パワフルなエコシステムを提供するために、すべてのツールを協調させるという意味で、最適な事例となるだろう。
ーーーーー
さすが High Scalability、さすが Todd Hoff さんという感じの記事です。このコンテントの翻訳は、理想のストレージを追い求める DynamoDB のコンセプトを勉強しながら、ストレージの難しさも同時に理解するという、とても貴重な体験でもありました。5月から、翻訳リストに入ってはいたのですが、なかなか手を付けられずにいました。 暑くて暇だった、今年のお盆休みの成果です
James Hamilton 先生の「Amazon DynamoDB の 超弩級 クラウド NoSQL 感覚」も、あわせて ど~ぞ。 ーーー ![]()
ーーーーー
<関連>
Amazon が通り過ぎた後に、どれだけのクラウドが生き残れるのか?
AWS S3 にストアされる Object が [ 1兆 ] を超えた
AWS と Rackspace の間で、クラウド・バーストを実験する!
トップを快走する AWS と、それを追いかける 7人の チャレンジャー
NASA は OpenStack を捨て、Amazon に乗り換えたのか?
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
IDC: Analytics a $51B business by 2016 thanks to big data
http://wp.me/pwo1E-4sK
By Derrick Harris Jul. 11, 2012
http://gigaom.com/cloud/idc-analytics-a-51b-business-by-2016-thanks-to-big-data/
The market for business analytics software grew 14 percent in 2011 and will hit $50.7 billion in revenue by 2016, according to market research firm IDC. And, that segment will grow at a 9.8-percent-a-year clip until then, IDC predicts, driven in part by the current hype around big data.
マーケット・リサーチ会社である IDC によると、ビジネス分析ソフトウェアのマーケットは2011年に 14% の上昇を見せ、また、2016 年までには $50.7 Billion に達するという。そして、このセグメントは、2016年まで 年率で 9.8% を上積みし、また、注目のキーワードである Big Data の周辺で伸びていくと IDC は予測している。
The renewed importance of analytics software comes as the idea of big data has opened companies’ eyes as to the types of insights their data can provide far beyond what traditional analytics efforts yielded. Platform technologies such as Hadoop are letting companies store more data than ever before possible and crunch types of data not traditionally used.
Big Data が企業の視野を広げるという発想が広まるにつれて、分析ソフトウェアの重要性が見直されている。それは、伝統的な解析手法がもたらすものを、はるかに超えた洞察を提供するものとなる。 Hadoop のようなプラットフォーム・テクノロジーが、考えられないほどのデータ量に対応し、これまでは活用できなかった情報を解析していく。
Analytics software is a key component of big data strategies because it’s the stuff that lets companies actually analyze and visualize their data. Vendors in this space are having to retool their products — many products have been around for years, if not decades – for the age of big data. By IDC’s estimates, data warehousing was the fastest growing analytics area in 2011, increasing 15.2 percent, followed by analytics applications at 13.3. percent and BI tools at 13.2 percent.
分析ソフトウェアが Big Data 戦略の主要コンポーネントになるのは、企業におけるデータの解析/視覚化が、それにより実現されるからである。 この領域におけるベンダーたちは、10年とは言わずとも、数年前からのプロダクトを抱え込んでおり、この Big Data の時代に合わせて、それらの再編の迫られている。 IDC の推定によると、2011年のデータ・ウエアハウジングは、15.2% の成長を遂げている。 そして、それに続くのが、分析アプリケーションの 13.3% と、BI ツールの 13.2% である。
By contrast, IDC recently predicted that the almost brand new market for Hadoop software and services will grow at about 60 percent a year until 2016, reaching $812.8 million up from $77 million today. It predicted the market for big data overall (which doesn’t include the higher-level analytics software) will reach $16.9 billion by 2015, up from $3.2 billion in 2010.
それとは対照的に、先日の IDC の調査によると、Hadoop のソフトウェアとサービスにおける、立ち上がったばかりのマーケットは、今日の $77 million から 2016年の $812.8 million へと、年率で 60% の成長が予測されている。また、Big Data 全体のマーケット(ハイレベルな解析ソフトウェアは含まない)は、2010年の $3.2 billion から、2015年には $16.9 billion にいたると予測されている。
Image courtesy of Shutterstock user marekuliasz.
Related research and analysis from GigaOM Pro:
- Infrastructure Q1: Cloud and big data woo enterprises
- Dissecting the data: 5 issues for our digital future
- A near-term outlook for big data
ーーーーー
それにしても、素晴らしいスピードで成長しているデータ分析市場ですね。 先日にポストした、「次世代ビジネスとして、Data as a Platform に注目する」というコンテンツでは、ーーー 企業が収集するデータの価値と、それを生み出すプロダクトにおける従来からの価値について考えるとき、広範囲におよぶ顧客と製品のデータを収集/分析することは、少なくとも、そのプロダクト以上の価値を持つようになる ーーー と指摘されていました。 そして、それを裏付けるかのような、この IDC のレポートですね。 ーーー ![]()
ーーーーー
<関連>
クラウドで Big Data をハンドリングする 6 社の事例
Big Data を探せ! アメリカの 5つの具体的な事例とは?
これまでの Little Data のように、Big Data も価値を作り出すのか?
Big Data の実装へと走る前に、Better Data について考えるべきだ
Hadoop 王国は、戦国時代へと 突入する?
とっても ラブラブな Linux と Big Data



While it’s true that both Pinterest and Instagram are not making great advances in 
























































































leave a comment