ついに、Hadoop for Windows がデビューするらしい
Hortonworks and Microsoft bring open-source Hadoop to Windows
http://wp.me/pwo1E-5GD
By Barb Darrow – Feb 25, 2013
http://gigaom.com/2013/02/25/hortonworks-and-microsoft-bring-open-source-hadoop-to-windows/
Summary: Hortonworks Data Platform for Windows, now in beta, brings Hadoop to Excel and SQL Server (and vice versa.)
Summary: Hortonworks Data Platform for Windows はベータの段階にあるが、Excel と SQL Server に Hadoop をもたらすものとなる(その逆の見方もある)。
ーーーーー
There’s probably no better way to open up big data to the masses than making it accessible and manipulatable — if that’s a word — via Microsoft Excel. And that ability gets closer to reality Monday with the beta release of Hortonworks Data Platform for Windows. The product of a year-old collaboration between Hortonworks and Microsoft is now downloadable. General availability will come later in the second quarter, said Shawn Connolly, Hortonworks’ VP of corporate strategy, in an interview.
Big Data を大衆に広めるという話しなら、Microsoft Excel を介して、そこへのアクセスを容易にし、また、操作しやすくする以上に、良い方法は無い。 そして、月曜日の Hortonworks Data Platform for Windows ベータのリリースにより、その機能の実現に近づいた。 Hortonworks と Microsoft による、1年間のコラボレーションの結果が、すでにダウンロードできるようになっている。 その全体が利用可能になるのは、Q2 の広範囲なるだろうと、 Hortonworks の VP of Corporate Strategy である Shawn Connolly が、インタビューに答えている。
The combination should make it easier to integrate data from SQL Server and Hadoop and to funnel all that into Excel for charting and pivoting and all the tasks Excel is good at, Connolly added.
この組み合わせにより、SQL Server と Hadoop からのデータを統合し、その結果を Excel に流しこむことが容易になる。 そして、Excel の得意とする、作図やピボットといった作業で、それらのデータを利用できる、と Connolly は付け加えている。
He stressed that this means the very same Apache Hadoop distribution will run on Linux and Windows. An analogous Hortonworks Data Platform for Windows Azure is still in the works.
さらに、彼は、同じ Apache Hadoop ディストリビューションが 、Linux と Windows で走ることになると強調している。 それと同様に、Hortonworks Data Platform for Windows Azure が、開発の途上にある。
Microsoft opted to work with Hortonworks rather than to continue its own “Dryad” project, as GigaOM’s Derrick Harris reported a year ago. Those with long memories will recall this isn’t the first time that Microsoft relied on outside expertise for database work. The guts of early SQL Server came to the company via Sybase.
GigaOM の Derrick Harris が 1年前にレポートしたように、Microsoft は独自の「Dryad」プロジェクトを継続するより、Hortonworks と協調する道を選んだ。 昔のことを知っている人々は、社外のデータベース・エキスパートに Microsoft が依存することは、決して初めてのことではないと、思い出すだろう。 初期の SQL Server は、その内容を、Sybase に依存していたのだ。
The intersection of structured SQL and unstructured Hadoop universes is indeed a hotspot, as Derrick Harris reported last week, with companies including Hadoop rivals Cloudera and EMC Greenplum all working that fertile terrain. That means Hortonworks/Microsoft face stiff competition. This topic, along with real-time data tracking, will be discussed at GigaOM’s Structure Data conference in New York on March 20-21.
Derrick Harris が先週に取り上げたように、構造化された SQL と、非構造の Hadoop が交わる点は、ほんとうの意味でホット・スポットである。そして、Hadoop のライバルである、Cloudera や EMC Greenplum などが、その興味深い領域に取り組んでいる。 それは、Hortonworks / Microsoft 連合軍が、厳しい戦いに直面することも意味する。 このトピックおよび、リアルタイム・データ・トラッキングは、3月 20-21日に New York で開催される、GigaOM Structure Data カンファレンスで解説される。
Upcoming: Structure:Data, Mar. 20-21, 2013, New York, Register by March 1 and save $200! More upcoming conferences.
Related research
- Takeaways from the second quarter in cloud and data July 2012
- The importance of putting the U and I in visualization May 2012
- A near-term outlook for big data March 2012
ーーーーー
この Hortonwoks の Hadoop ですが、どのような形で Microsoft がまとめ上げるのか、とても気になっていました。Windows Azure の一部として、クラウドだけに特化するのであれば、Windows へのポーティングは不要です。 しかし、オンプレミスを前提とした、パッケージ化を考えるなら、Windows 版の Hadoop が不可欠です。 まぁ、どちらかをハッキリさせてというより、中庸をめざして、まずは、パッケージ化を進めていくという判断なのでしょう。いずれにせよ、OSS とは言え、Google の頭脳から生まれた Hadoop を、へんな拘りをもたずに、Microsoft が使うというのは、とても良いことだと思います。![]()
ーーーーー
<関連>
Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Hadoop 王国は、戦国時代へと 突入する?
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
Apple’s ‘Mapocalypse’ Highlights Big Data Battle
http://wp.me/pwo1E-54a
October 3, 2012 – Mike Barton
http://www.wired.com/insights/2012/10/mapocalypse-big-data-battle/
The new Maps feature in Apple’s iOS 6 (launched with iPhone 5) has caused Apple a headache, and even led to its CEO apologizing. But more important than Apple’s ego is what the “mapocalypse” means in its bigger battle with Google and its Android platform. Forbes’ Dave Einstein writes in “Google vs. Apple Maps: Big-Data Battle, Cloudy Clash”:
Apple の iOS 6 における、新しい Maps 機能(iPhone 5で導入された)は同社にとって頭痛のタネとなり、また、CEO が謝罪するという事態をもたらした。 しかし Apple にとって、自身のエゴよりも重要なことは、この Mapocalypse が意味するものが、Google および Android プラットフォームとのバトルだという点だ。Forbes の Dave Einstein は、“Google vs. Apple Maps: Big-Data Battle, Cloudy Clash” で、以下のように書いている:
The battleground can be described in just two words: Big Data. Google has it; Apple is scrambling to catch up.
このバトルの背景は、たった 2つの言葉で説明できる。 つまり、Google は Big Data を使いこなし、その一方で Apple は、Big Data を急いで準備している段階にある。
G’day, North America! One example of the iOS 6 “mapocalypse.” Source: theamazingios6maps.tumblr.com
And it’s not just Maps, Einstein writes:
Einstein は、マップ以外についても、以下のように記述している:
Apple would seem to have the edge, but the more consumers use Siri, the more they may realize it’s a work in progress. Like Maps, it’s even being made fun of on TV. Android, meanwhile, has proven remarkably accurate at recognizing human speech and returning accurate answers.
Again, it’s all about Big Data. Speech recognition used to be a novelty for consumers, something to be used if you had Carpal Tunnel or another ailment that made it hard to use a computer.
…Google’s game changer used massive databases to store everything users said while voice-searching on their Android phones. Suddenly speech recognition became a data-driven, cloud service that trained itself. It compared the speech patterns of millions of users, correlated with the content and context of search queries.
Apple は、競争力を持っているように思われるだろうが、そして、多くのユーザーが Siri を使っているだろうが、それが開発途上にあることを知っているのかもしれない。 Maps と同様に、テレビでからかわれさえしている。 その一方で Android は、人間のj話し言葉を認識して、答えを返すことにおいて、驚くほど正確であると証明されている。
繰り返すが、それらすべてが、Big Data に関連する。 これまでの音声認識は、消費者に対するノベルティの類のものであり、もし Carpal Tunnel(手根管症候群)などの病気で、コンピュータを使うことが困難になったときに、使われる何かであった。
しかし、ゲーム・チェンジャーである Google は、Android Phone を使った音声検索の間に、ユザーが発するすべての言葉を、大規模なデータベースにストアするという手法を用いている。 突然に、音声認識がデータ駆動型になり、そのクラウド・サービスは、自身を洗練させ続ける。そこでは、何百万人というユーザのスピーチ・パターンが比較され、サーチ・クエリーの内容と脈略に関連づけられる。
Einstein writes: “Google’s advantage over Apple could easily continue to grow, because much of its product development ties right back into geo-location. From self-driving cars that know where they are to ‘augmented reality’ glasses right out of Philip K. Dick, the company is developing services based on location to help them improve things like Google Maps and Voice Search.”
さらに Einstein は、『 Apple に対する Google のアドバンテージは、そのプロダクト開発の大半が、ゲオ・ロケーションと緊密に結び付けられるため、容易に拡張し続けることが可能だ。 Philip K. Dick の小説にあるように、自身の位置を確認しながら自動操縦するクルマから、「複合現実感」のメガネにいたるまで、Google が開発するサービスは、自らを洗練させるためにロケーションをベースにする。そして、それは、Google Maps も、Voice Search も、同じことなのだ 』と記している。
Google’s Android is the most popular mobile OS and growing like crazy, and you know the story online (read: big data collection in overdrive). This gives the company a growing jump on Apple.
Google の Android は、最も人気の高いモバイル OS であり、また、猛烈な勢いで成長している。そして、あなたはオンラインで、そのストーリーを探せる( 加速している Big Data での記事を読んでほしい)。 それにより、Google は Apple を飛び越せる。
Weigh in: Is Google’s cloud advantage playing out now with Maps and speech recognition? Is this jump on Big Data something Apple and others can ever match? Will Apple and others be forced to accept Google’s Big Data advantage and use Google tools such as Maps?
Weigh in: Google Cloud のアドバンテージは、いまのところ、Maps と音声認識で展開しているのか? この、Big Data(のようなもの)へのジャンプにおいて、Apple などは、そもそも対抗できるのか? Apple などは、Google における Big Data のアドバンテージを受け入れ、また、Maps のような Google ツールを使うことを強いられるのか?
ーーーーー
いまの IT 業界に、イノベーション Big Four を見出すとしたら、Amazon/Apple/Facebook/Google なのだろうと思います。 そして、いわゆる Big Data で遅れを取っているのが Apple であり、それが Apple Maps で問題を起こしているというのは、とても興味深く、また、納得しやすい論点ですね。 ![]()
ーーーーー
<関連>
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Hadoop 王国は、戦国時代へと 突入する?
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Twitter が提供する、MySQL 関連のオープンソースとは
Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Microsoft Announces Open Source based Cloud Service
Thursday, October 13, 2011
http://perspectives.mvdirona.com/2011/10/13/MicrosoftAnnouncesOpenSourceBasedCloudService.aspx
ーーーーー

We see press releases go by all the time and most of them deserve the yawn they get. But, one caught my interest yesterday. At the PASS Summit conference Microsoft Vice President Ted Kummert announced that Microsoft will be offering a big data solution based upon Hadoop as part of SQL Azure. From the Microsoft press release, “Kummert also announced new investments to help customers manage big data, including an Apache Hadoop-based distribution for Windows Server and Windows Azure and a strategic partnership with Hortonworks Inc.”
私たちが目にするプレス・リリースは、その大半が退屈なものである。 しかし、昨日のことだが、とても興味深いものを見つけた。 PaaS Summit カンファレンスで、Microsoft Vice President である Ted Kummertが、Hadoop ベースの Big Data ソリューションを、SQL Azure の一部として提供すると発表したのだ。 その、Microsoft のプレスリリースによると、「 Kummert のアナウンスには、Windows Server と Windows Azure での、Apache Hadoop ベース・ディストリビューションと、Hortonworks との戦略的パートナーシップが含まれており、Big Data を取り扱う顧客を支援するための、新たな投資が行われる」とされる。
Clearly this is a major win for the early startup Hortonworks. Hortonworks is a spin out of Yahoo! and includes many of the core contributors to the Apache Hadoop distribution: Hortonwoks Taking Hadoop to Next Level.
明らかなことは、スタートアップである Hortonworks に、大きな成功がもたらされることだ。 Hortonworks は Yahoo! からのスピンアウトであり、また、Apache Hadoop ディストリビューションにおけるコア・コントリビュータである: Hortonwoks Taking Hadoop to Next Level 。
This announcement is also a big win for the MapReduce processing model. First invented at Google and published in MapReduce: Simplified Data Processing on Large Clusters. The Apache Hadoop distribution is an open source implementation of MapReduce. Hadoop is incredibly widely used with Yahoo! running more than 40,000 nodes of Hadoop with their biggest single cluster now at 4,500 servers. Facebook runs a 1,100 node cluster and a second 300 node cluster. Linked in runs many clusters including deployments of 1,200, 580, and 120 nodes. See the Hadoop Powered By Page for many more examples.
さらに、このアナウンスメントは、MapReduce プロセシング・モデルにとっての、大きな勝利を意味する。 最初に Google で考案され、そして MapReduce として提供された:Simplified Data Processing on Large Clusters 。 つまり、Apache Hadoop のディストリビューションは、MapReduce のオープンソース実装である。 Hadoop は、Yahoo! において、きわめて広範囲で利用されている。いまでは、40,000 以上のノードが実行され、最大のシングル・クラスタは 4,500 サーバーにまで至っている。 また、Facebook は、1,100 ノードのクラスタと、300 ノードクラスタを運用している。さらに、LinkedIn も、1,200/580/120 のノードのディプロイメントを含めて、多数のクラスタを実行している。その他の、多数の事例に関しては、Hadoop Powered By Page を参照して欲しい。
In the cloud, AWS began offering Elastic MapReduce back in early 2009 and has been expanding the features supported by this offering steadily over the last couple of years adding support for Reserved Instances, Spot Instances, and Cluster Compute instances (on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)and support for more regions with EMR available in Northern Virginia, Northern California, Ireland, Singapore, and Tokyo.
クラウドにおいては、2009年の初頭より AWS が Elastic MapReduceの提供を開始し、この 2年の間に、着実に機能を拡張してきた。Reserved Instances や、Spot Instances、Cluster Compute Instances(on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)を追加し、Northern Virginia/Northern California/Ireland/Singapore/Tokyo などのリージョンをサポートしている。
Microsoft expects to have a pre-production (what they refer to as a “community technology Preview”) version of a Hadoop service available by the “end of 2011”. This is interesting for a variety of reasons. First, its more evidence of the broad acceptance and applicability of the MapReduce model. What is even more surprising is that Microsoft has decided in this case to base their MapReduce offering upon open source Hadoop rather than the Microsoft internally developed MapReduce service called Cosmos which is used heavily by the Bing search and advertising teams. The What is Dryad blog entry provides a good description of Cosmos and some of the infrastructure build upon the Cosmos core including Dryad, DryadLINQ, and SCOPE.
Microsoft は「2011年の終わり」までに、Hadoop サービスのプリ・プロダクション・バージョン(彼らの言う “community technology Preview”)を持ちたいと望んでいる。 このことは、さまざまな点で興味深いものである。 第一に、MapReduce モデルが、広範囲で受け入れられ、その適用性が証明されたことになる。 さらに驚くべきことは、Microsoft による MapReduce 提供が、オープンソースである Hadoop ベースで行われることである。つまり、Microsoft が内製し、Bing サーチと広告チームで利用されている、Cosmos という MapReduce サービスを押しのけることになる。 What is Dryad ブログのエントリーには、Cosmos に関する丁寧な説明と、その上に構築された Dryad/DryadLINQ /SCOPE などの情報が提供されている。
As surprising as it is to see Microsoft planning to offer MapReduce based upon open source rather than upon the internally developed and heavily used Cosmos platform, it’s even more surprising that they hope to contribute changes back to the open source community saying “Microsoft will work closely with the Hadoop community and propose contributions back to the Apache Software Foundation and the Hadoop project.”
つまり、Microsoft 内部で開発され、各部門で利用されている Cosmos プラットフォームよりも、オープンソース・ベースのMapReduce の提供を計画している点は、驚くべきことである。そして、「Microsoft は Hadoop コミュニティと緊密に作業を進め、Apache Software Foundation と Hadoop Project に対してコントリビュートシていく」と言い、そこで得られた成果を、オープンソース・コミュニティに戻していきたいとしている点に、さらに驚かされる。
· Microsoft Press Release: Microsoft Expands Data Platform
· Hortonsworks Press Release: Hortonworks to Extend Apache Hadoop to Windows Users
· Hortonworks Blog Entry: Bringing Apache Hadoop to Windows
Past MapReduce postings on Perspectives:
· MapReduce in CACM
· MapReduce: A Minor Step Forward
· Hadoop Summit 2010
· Hadoop Summit 2008
· Hadoop Wins TeraSort
· Google MapReduce Wins TeraSort
· HadoopDB: MapReduce over Relational Data
· Hortonworks Taking Hadoop to Next Level
e: jrh@mvdirona.com
w: http://www.mvdirona.com
b: http://blog.mvdirona.com / http://perspectives.mvdirona.com
ーーーーー
昨年の夏に Ray Ozzie が去り、秋には Bob Muglia を解任してしまい、大事な時期に空白の数カ月をもたらしてしまった Microsoft ですが、久々に良いニュースが聞けて嬉しいですね。 また、最初の Hadoop World が開催されてから( 3回目の Hadoop World NYC は11月)、わずか 2年で、Hadoop も重要なポジションを確立しましたね。そちらの側から見ても、とても嬉しいニュースです。 なお、文中でも参照している Hortonworks に関する記事は、<関連>の先頭にありますので、よろしければ、ご参照ください。ーーー ![]()
ーーーーー
<関連>
Yahoo! から派生した Hortonworks が 次期 Hadoop を語る by J.H.
Big Data を探せ! アメリカの 5つの具体的な事例とは?
クラウドで Big Data をハンドリングする 6 社の事例
OpenFlow と Big Data の 深い関係について
HP が $10B で 買収する Autonomy は、Big Data のスペシャリスト?
OpenFlow と Big Data の 深い関係について
OpenFlow: A Technology on the Move
By Kyle Forster Jul. 24, 2011, 9:00am
http://gigaom.com/cloud/openflow-a-technology-on-the-move/
OpenFlow may be one of the hotter buzzwords in bleeding-edge networking technologies these days, but getting past the emotional exuberance and down to brass tacks in this area can be difficult. Why? First,the OpenFlow protocol is a sort of infrastructure-of-infrastructure that can be applied many places. Second, OpenFlow continues to pop up in new contexts as the ecosystem around the technology expands. This is a story of an engineering achievement built to solve one problem that has become the root of a veritable family tree of solutions for problems in the networking space.
OpenFlow は、最近の先端ネットワーク・テクノロジーにおける、ホットなバズワードの 1つかもしれない。 しかし、このエリアで、感情のレベルを超え、また、核心にまで到達することは、難しいものにもなり得る。 なぜだろう? 最初に、この OpenFlow プロトコルが、数多くの状況に適応し得る、インフラストラクチャの中のインフラストラクチャという種類である点があげられる。 続いて、そのテクノロジーの周辺にエコシステムが広がるにつれて、OpenFlow には新しいコンテキストが、登場し続けることも指摘しておく。 それは、1つの問題を解決すために構築された、工学的な業績の物語である。 そして、その問題とは、紛れもないファミリー・ツリーの、ルートとなるソリューションに根ざすものとなる。 つまり、それにより、ネットワーク空間に横たわる数々の問題が解決され、また、数々の問題が生じているという状況にあるのだ。
How OpenFlow got here
If you look at the OpenFlow v1.0 spec – a scant 27-page-long document – it isn’t immediately obvious that this is going to be useful, much less revolutionary. At its most basic level, OpenFlow is a protocol for server software (a “controller”) to send instructions to OpenFlow-enabled switches, where these instructions give direct control over how those switches forward traffic through the network.
OpenFlow v1.0 spec - 27ページの長いドキュメント - を読むにしても、それが有用であっても、それほど革命的ではないことは、ただちには見抜けないだろう。 OpenFlow とは、その最も基本的なレベルにおいて、OpenFlow 対応のスイッチへ向けてインストラクションを送る、サーバー・ソフトウェア(コントローラー)のためのプロトコルのことである。そして、インストラクションを受け取ったスイッチには、ネットワークを介してトラフィックを転送する方法について、ダイレクトなコントロールが与えられる。
I think of OpenFlow like an x86 instruction set for the network – it’s low-level, but it’s very powerful. Continuing that analogy, if you read the x86 instruction set for the first time, you might walk away thinking it could be useful if you need to build a fancy calculator, but using it to build Linux, Apache, Microsoft Word or World of Warcraft wouldn’t exactly be obvious. Ditto for OpenFlow. It isn’t the protocol that is interesting by itself, but rather all of the layers of software that are starting to emerge on top of it, similar to the emergence of operating systems, development environments, middleware and applications on top of x86.
私の考える OpenFlow とは、ネットワークのための x86 インストラクション・セットのようなものであり、低レベルではあるが、きわめてパワフルなものとなる。 この類推を、もう少し続ける。 あなたが、x86 インストラクション・セットを始めて読んだとき、シャレた計算器を構築するのには、有用になり得ると思ったことだろう。しかし、それにより、Linux や、Apache、Microsoft Word、World of Warcraft が構築されるとは、確信できなかっただろう。 OpenFlow も、同じである。 それは、単体で興味を惹くプロトコルではないが、あらゆるソフトウェア・レイヤが、その上に出現し始めている。つまり、x86 上に、オペレーティング・システムや、開発環境、ミドルウェア、アプリケーションなどが出現してきた状況に似ているのだ。
The evolution of OpenFlow … for now.
Image courtesy of Flickr user flickrohit.
From where I sit, OpenFlow got its first traction outside of academia in the super-large data centers of companies trying to solve really big data problems. Several years ago, these teams were faced with the daunting task of building a network for map-reduce/Hadoop clusters that could scale to the hundreds of thousands of servers.
私の視点からだと、OpenFlow がアカデミックの外側で最初に得たものは、Big Data の問題を解決しようとする企業の、きわめて大規模なデータセンターからの推進力だと思える。 数年前のことだが、それらのチームは、何十万のサーバーにまでスケールする MapReduce / Hadoop クラスタ用のネットワーク構築において、困難なタスクに直面していた。
Full cross-sectional bandwidth is a must-have requirement for these big data applications, and it doesn’t take much back-of-the-envelope calculating to come to the conclusion that a tree-based architecture will require throughput on core switches/routers that simply can’t be bought at any price right now. Furthermore, the networks in these clusters are no longer so cleanly distinguishable from the application software. Instead, they are just one component in an overall big, big data system, and they need programmatic interfaces that play nicely with other parts of the system. From these early efforts to support big data apps came a new generation of non-tree architectures, all closely tied to concepts that we see in OpenFlow such as flexible forwarding and the ability to really program the network to meet specific application needs.
完全な断面帯域( cross-sectional bandwidth)が、それらの Big Data アプリケーションにとって、絶対に欠かせない要件となる。ただし、その結論を、計算から導き出すのは、たやすい事ではない。つまり、コアとなるスイッチ/ルーター上で、スループットを要求する Tree Base のアーキテクチャは、いかなる対価を支払っても購入できないものとなる。 それどころか、それらのクラスタに収まったネットワークは、もはや対象となるアプリケーション・ソフトウェアから、それほど明確に分離することができなくなる。その代わりに、Big Data システム全体の中の 1つのコンポーネントとなり、システムにおける他の部分と上手にインタラクトする、プログラマブルなインターフェイスが必要となる。Big Data アプリケーションをサポートするための、早い時期から積み上げられてきた努力から、次世代 Non-Tree アーキテクチャがもたらされている。それは、柔軟な転送のための機能と、アプリケーション固有の要件を充たすネットワーク・プログラミング能力といった、OpenFlow のコンセプトと密に結び付けられたものとなる。
R&D in this area started in earnest a few years ago – roughly coinciding with the formation of the first few OpenFlow startups and the beginnings of the academia-meets-industry Tuesday OpenFlow meetings back at Stanford. Motivated by the big data problem, that group planted the seeds of the OpenFlow protocol. With the Open Networking Foundation forming this year and talk of large-scale production builds underway, these seeds are starting to bear (commercial) fruit.
このエリアにおける R&D は、数年前から本格的に始まっている。早期における数少ない OpenFlow スタートアップの形成と、 Stanford に戻った産学 Tuesday OpenFlow ミーティングは、ほぼ同時に起こっている。 Big Data の問題により、興味を持つことになったグループが、OpenFlow プロトコルに SEED を植え付けた。今年に設立された Open Networking Foundation と、構築中のラージ・スケール・プロダクション関係筋の話によると、それらの SEED は、果実(ビジネス)を実らせ始めている。
OpenFlow goes webscale and then to the cloud
As with many scientific achievements, solving this massive-scale big data problem has generated solutions to many related problems. For example, large-scale public Infrastructure-as-a-Service (IaaS) cloud providers realized this new network architecture better serves their needs. However, there were still some unaddressed problems, such as needing to isolate each customer/tenant into its own network.
数多くの科学的な業績と同様に、きわめて膨大なスケールの、Big Data における問題を解決することは、それに関連する大量の問題に対するソリューションを生み出す。 たとえば、ラージ・スケールの IaaS クラウド・プロバイダたちが、この新しいネットワーク・アーキテクチャにより、彼らのニーズが充たされることを悟った。 しかし、それぞれのカスタマ/テナントを、彼ら自身のネットワークの中に分離していく必要性といった、いくつかの取り組まれていない問題があった。

Nick McKeown, who helped develop OpenFlow at Stanford.
Further, each tenant is constantly submitting requests to add/remove VMs, and servicing these dynamic requests often requires spreading VMs all throughout a data center and then trying to move them back closer to each other. Solving these problems requires some very fancy and often custom Layer 2 and Layer 3 gymnastics — new problems to solve, and OpenFlow turns out to be a great fit there because it allows the network designers to more easily deploy the custom forwarding policy they need across the portions of the network that need it.
さらに、それらのテナントは、VM を add/remove するためのリクエストを発行し、また、そのためのダイナミックなリクエストへの対応により、データセンター全体に VM を展開することが頻繁に起こり、さらには、お互いに近い位置へ戻そうとすることもある。 これらの問題を解決するためには、きわめて洗練された、そして、多くの場合にカスタムなものとなる、Layer 2 と Layer 3 の知的訓練が必要となる。 つまり、それが解決すべき新しい問題であり、また、そのためには OpenFlow が最適であると理解できる。なぜなら、ネットワーク・デザイナーたちが、必要とされるネットワーク内の特定部分をまたいで、カスタムな転送ポリシーを配置することを、OpenFlow は容易に実現するからである。
Who knows what tomorrow will bring
That brings us up to the R&D happening today where we see a new branch of OpenFlow solutions emerging in trials for private IaaS clouds. While not ‘multi-tenant’ in quite the same sense as the public clouds, these deployments have a lot of issues in common with public clouds. The cross-section bandwidth problem still exists, of course, but now the virtualization, isolation, delegated administration and co-existence with classic network architectures have become key problems to solve. OpenFlow allows the network to be programmed directly to solve these problems with the same speed that IaaS providers have become accustomed to with server virtualization.
ようやく、いまの R&D で起こっている事象まで、話がつながってきた。 そこでは、プライベートの IaaS クラウドのためのトライアルとして、OpenFlow ソリューションに新しい分岐が出現していることを確認できる。 マルチ・テナントは、パブリック・クラウドとは全く異なる意味を持つが、そのディプロイメントにおいいては、パブリック・クラウドと共通に数多くの問題が存在する。 もちろん、断面帯域( cross-sectional bandwidth)の問題も依然として存在するが、いまでは、仮想化や分離、そして管理の委任、さらには、従来からのネットワーク・アーキテクチャの共存などが、解決するべき重要な問題となっている。 OpenFlow は、それらの問題をダイレクトに解決するための、ネットワーク・プログラミングを実現するが、それは、IaaS プロバイダが、サーバーの仮想化で経験したスピードで進んでいく。
Are there more of these branches of the OpenFlow family tree blossoming? Of course. One short blog post is not quite enough to talk about OpenFlow in the campus LAN environment starting to get traction in some of the original research universities or the early interest in OpenFlow as “the new stackable” for small/medium business networking. I’ll leave those for future posts.
開花した OpenFlow ファミリーの大樹には、その他の枝もあるのだろうか? もちろん、ある。 このような、ショート・ブログ・ポストで、キャンパス LAN 環境における OpenFlow について書くことは不可能だ。大元である大学での研究において、また、small/medium ビジネス・ネットワークキングのための、STACK-ABLE な OpenFlow に対する早期からの関心事として、いくつかの事柄が促進されている。 今後のポストにおいて、それらに触れていきたい。
Net-net, is OpenFlow going to be useful? Absolutely yes. What is it going to be used for? I don’t think that there is any one answer, but rather a family tree that is growing new branches, blossoming and bearing new fruit as we speak.
最終的な収支として、OpenFlow は有用なものになるのだろうか? 絶対的に Yes である。 何のために、それは使われるのか? そこに 1つの答えがあるとは、私は思わない。しかし、私たちが話をするように、この大樹には、新しい枝が成長し、花が咲き、新鮮な果物が実っていくだろう。
Kyle Forster is the VP of sales and marketing and co-founder of BigSwitch Networks.
Related research and analysis from GigaOM Pro:
- Infrastructure Q1: IaaS Comes Down to Earth; Big Data Takes Flight
- Infrastructure Overview, Q2 2010
- Infrastructure Q2: Big data and PaaS gain more momentum
ーーーーー
訳していて、止まらなくなってしまう、面白さ・・・ でした。Agile_Cat には Big Data とか、Hadoop とかのカテゴリもあるのですが、それらと OpenFlow が連携するという、いわば歴史的な瞬間が訪れたわけです
それにしても、データセンター内の複雑なネットワークというのは、とても深刻な問題なのだと思います。 おそらく、Amazon AWS のダウンも、after OpenFlow であれば回避できた問題なのでしょう。 そう考えると、クラウドも、まだまだ これからのテクノロジーなのだと実感してしまいますね。 ーーー ![]()
ーーーーー
<関連>
OpenFlow のゴールとは?
OpenFlow のスイッチとは?
OpenFlow 専門家になるための近道とは?
OpenFlow により、ネットワーク業界は HOT になるのか?
スタンフォード大学の Open Networking Summit と OpenFlow
Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる
Twitter が提供する、Hadoop ライクな OSS とは?
Twitter to open source Hadoop-like tool
By Stacey Higginbotham Aug. 4, 2011
http://gigaom.com/cloud/twitter-to-open-source-hadoop-like-tool/
Attention webscale aficionados, Twitter says it is planning to open source Storm, its Hadoop-like real-time data processing tool. In a blog post Thursday, the microblogging network said it plans to release the Storm code on Sept. 19 at the Strange Loop event in St. Louis, Mo.
Webs Scale マニアよ注意せよ – Twitter は、Hadoop ライクなリアルタイム・データ・プロセシング・ツールに関して、オープンソースの嵐を巻き起こそうと計画しているらしい。 木曜日(8/4)のブログポストで、このマイクロ・ブログ・カンパニーは、9月19日に St. Louis, Mo で開催される Strange Loop というイベントで、Storm のコードを公表する計画を練っていると発言した。
The question is — does the world need another real-time data processing tool? After all there are many tools like HStreaming (using Hadoop), the open source S4 and StreamBase, but the overall analytics market (if you can call it a market) is already fragmented. The Storm code comes from Twitter’s acquisition of BackType last month and seems to be an effort to get folks comfortable parsing data on Twitter.
そこでの疑問は以下のとおりである ー 世界は、もう 1つのリアルタイム・データ・プロセシング・ツールを必要とするか? 結局のところ、オープンソースである S4や StreamBase といった、数多くの HStreaming(Hadoop を利用)ツールがあが、分析のための全体的なマーケットは(単にマーケットと呼ぶなら)、すでに分裂している。 Storm のコードは、先月に Twitter が買収した BackType がベースとなり、また、同社におけるデータ解析を快適にするために、folk したものと思われる。
The post does an excellent job laying out use cases for Storm and hints at more to come. While the code can deal with distributed nodes and huge amounts of data a la Hadoop or Map Reduce, Storm handles jobs that are “infinite.” It’s not for a data processing job with an end point, it’s good for streams of data and continual processing. From the post by Nathan Marz:
そのポストは、Storm のユースケースを概説し、これから加えられる機能をほのめかすという意味で、良い仕事をしている。 そのコードは、Hadoop あるいは Map Reduce のように、分散ノードと大量データを取り扱いう。 そして、Storm が処理するのは、「無限」のジョブとなる。 それは、エンドポイントを用いたデータ・プロセシング・ジョブのためのものではなく、データ・ストリーミングと継続的な処理に適している。Nathan Marz によるポストは、以下のとおりである:
Here’s a recap of the three broad use cases for Storm:
- Stream processing: Storm can be used to process a stream of new data and update databases in realtime. Unlike the standard approach of doing stream processing with a network of queues and workers, Storm is fault-tolerant and scalable.
- Continuous computation: Storm can do a continuous query and stream the results to clients in realtime. An example is streaming trending topics on Twitter into browsers. The browsers will have a realtime view on what the trending topics are as they happen.
- Distributed RPC: Storm can be used to parallelize an intense query on the fly. The idea is that your Storm topology is a distributed function that waits for invocation messages. When it receives an invocation, it computes the query and sends back the results. Examples of Distributed RPC are parallelizing search queries or doing set operations on large numbers of large sets.
広範囲におよぶ、Storm の 3つのユースケースを、以下に要約する:
- Stream processing: Storm は、新規データのストリームを処理し、データベースをリアルタイムで更新するために使用できる。Qqueue と Worker のネットワークを用いてストリームを処理をする、従来からの標準的なアプローチとは異なり、Storm はフォールト・トレラントであり、また、スケーラブルである。
- Continuous computation: Storm は継続的にクエリーを発行し、また、その結果をクライアントへ向けて、リアルタイムにストリーミングする。たとえば、Twitter のトレンディングなトピックを、ブラウザへ向けてストリーミングすることが可能だ。 対象となるブラウザは、それらのトレンディングなトピックが発生するたびに、リアルタイムなビューで参照することになる。
- Distributed RPC: Storm は、高負荷なくエリーを、on the fly で並列化するために利用できる。 この発想により、Stormトポロジーは、呼出しメッセージを待つための分散的な機能になる。 呼び出しが受信されたとき、クエリーが処理され、その結果が返される。 Distributed RPC の例としては、検索クエリーの並列化、および、膨大なデータセットに対する設定オペレーションなどがあげられる。
But wait! There’s more! At the end of the post we are assured that there’s more to Storm than the blog post has even defined, which we can learn more about next month at the Strange Loop event. From the post:
しかし、これで、すべてではない! さらに、多くの事柄がある! このブログポストの終わりには、そこに記載された以上の機能があるとされ、来月の Strange Loop イベントで、詳細を学ぶことが可能と約束されている。以下は、そのポストから:
I’ve only scratched the surface on Storm. The “stream” concept at the core of Storm can be taken so much further than what I’ve shown here — I didn’t talk about things like multi-streams, implicit streams, or direct groupings. I showed two of Storm’s main abstractions, spouts and bolts, but I didn’t talk about Storm’s third, and possibly most powerful abstraction, the “state spout”. I didn’t show how you do distributed RPC over Storm, and I didn’t discuss Storm’s awesome automated deploy that lets you create a Storm cluster on EC2 with just the click of a button.
私は、Storm の表層を語ったただけである。 Srtorm のコアにある「Stream」のコンセプトは、ここに記した以上のものである。 つまり、multi-streams および、implicit streams、direct groupings について、私は言及していない。 私は、Storm における主要な抽象概念である、spouts and bolts について説明したが、3番目の概念については話していない。 それは、おそらく最も強力な、state spout という抽象概念である。 また、Storm 上に分散 RPC を展開する方式や、ボタンをクリックするだけで EC2 上に Storm クラスタを作成する、素晴らしく自動化されたデプロイメントについても説明していない。
So for those anxious to test out a new method of crunching terabytes of real-time data on the fly, get thee to GitHub! And wait.
テラバイトのリアルタイム・データを on the fly で処理するための、この新しい方式を試したいなら、GitHub へ行け!そして、待て。
Related research and analysis from GigaOM Pro:
- Defining Hadoop: the Players, Technologies and Challenges of 2011
- Infrastructure Overview, Q2 2010
- Big Data Marketplaces Put a Price on Finding Patterns
ーーーーー
このところ、Twitter のテクノロジーに、いくつかの変更と拡張が加えられているようです。 Facebook との棲み分けの時代から、Google+ との競合の時代へと、Twitter の環境は変化しています。 たいへんだろうけど、頑張って欲しいです。 ーーー ![]()
ーーーーー
<関連>
Twitter における、Ruby から Java への回帰とは?
Twitter サーチを 3倍速にする新アーキテクチャとは? _1
Twitter サーチを 3倍速にする新アーキテクチャとは? _2
Twitter サーチを 3倍速にする新アーキテクチャとは? _3
Big Data を探せ! アメリカの 5つの具体的な事例とは?
5 real-world uses of big data
By David Smith Jul. 17, 2011, 9:00am PT
http://gigaom.com/cloud/5-real-world-uses-of-big-data/
In the past year, big data has emerged as one of the most closely watched trends in IT. Organizations today are generating more data in a single day than that the entire Internet was generated as recently as 2000. The explosion of “big data”–much of it in complex and unstructured formats–has presented companies with a tremendous opportunity to leverage their data for better business insights through analytics.
これまでの1年間において、Big Data は IT トレンドの中で、最も注目を浴びるものの 1つとなった。今日において、各種の組織が生成している 1日あたりのデータの量は、2000年までのインターネット全体が生成そたものよりも多い。 Big Data の爆発は、つまり、複雑で構造を持たないデータの爆発は、それらを分析することで、ビジネスを有利に展開する大きなチャンスを、それぞれの企業に提供している。
Wal-Mart was one of the early pioneers in this field, using predictive analytics to better identify customer preferences on a regional basis and stock their branch locations accordingly. It was an incredibly effective tactic that yielded strong ROI and allowed them to separate themselves from the retail pack. Other industries took notice of Wal-Mart’s tactics — and the success they gleaned from processing and analyzing their data — and began to employ the same tactics.
Wal-Mart は、この領域におけるパイオニアの 1社であり、それぞれの地域における顧客の好みを適切に識別し、それに応じて在庫を調整するために、予測と分析を用いている。 それは、強力な ROI をもたらす、きわめて有効な戦略であり、また、リテール・パックからの分離を実現した。そして、他の業種も Wal-Mart の戦略に、つまり自身のデータに関する処理と分析から枝葉を拾い集める方式に注目し、それと同じ戦略をを使い始めた。
While data analytics was once considered a competitive advantage, it’s increasingly being seen as a necessity for enterprises–to the point that those that aren’t employing some kind of analytics are seen to be at a competitive disadvantage. Driven by the rise of modern statistical languages like R, there’s been a surge in enterprises hiring data analysts–which has in turn given rise to the larger data science movement. Data is a huge asset for enterprises, and they’re beginning to treat it accordingly.
データ分析が競合におけるアドバンテージだと認識されると、エンタープライズにおける必要性が、ますます増大してくるようにみえる。 そして、何らかの分析手法を持たない企業は、競合において不利だと思われるところまで行き着いてしまう。 たとえば、R のような最新の統計言語の登場により、データ・アナリストを雇っている企業は業績を伸ばし、また、大規模データ・サイエンスへ向けて、順番に進路を転換していった。データは、エンタープライズにおける重要な資産となり、また、こうした動向により、大切にされ始めた。
For all the talk about the need to effectively analyze your data, though, there’s been relatively little written about how organizations are using data to achieve actionable results. With that in mind, here are five use cases involving analyses of large data sets that brought about valuable new insight:
しかし、それらのデータを効果的に分析する、すべてのニーズについて言及するにしても、その結果を具体的な行動に結びつけるための、組織的な運用に方式に関する著述は少ない。 それを前提として、価値のある最新の洞察をもたらすための、大規模データセットの分析に関連する、5つのユースケースを以下に紹介する:
- NYU Ph.D. student conducts comprehensive analysis of Wikileaks data for greater insight into the Afghanistan conflict:Drew Conway is a Ph.D. student at New York University who also runs the popular, data-centric
Zero Intelligence Agentsblog. Last year, he analyzed several terabytes worth of Wikileaks data to determine key trends around U.S. and coalition troop activity in Afghanistan. Conway used the R statistics language first to sort the overall flow of information in the five Afghanistan regions, categorized by type of activity (enemy, neutral, ally), and then to identify key patterns from the data. His findings gave credence to a number of popular theories on troop activity there–that there were seasonal spikes in conflict with the Taliban and most coalition activity stemmed from the “Ring Road” that surrounds the capitol, Kabul, to name a few. Through this work, Conway helped the public glean additional insight into the state of affairs for American troops in Afghanistan and the high degree of combat they experienced there.Drew Conway は New York University に Ph.D. 課程の学生であり、また、Zero Intelligence Agentsという、人気のデータ・セントリック・ブログを運営している。 昨年のことだが、彼は、Afghanistan における U.S. 関連のトレンドと、連合軍のアクティビティを判断するために、テラ・バイト相当の Wikileaks データを分析した。 Conway は、統計言語である R を用いて、Afghanistan の 5つの地域に関する情報フローをソートし、アクティビティの種類(敵対/中立/連合)でカテゴライズを行い、それらのデータに基づいき主要パターンを識別していった。 彼の調査結果は、その地域での軍事的アクティビティにおいて、支持を集めているセオリーに信用を与えた。 つまり、二三の例を挙げると、たとえば Taliban との衝突には顕著なピークが見られ、大半の軍事的アクティビティは、首都 Kabul を囲む「環状道路」から生じていることが分かった。 この作業を通じて Conway は、Afghanistan におけるアメリカ軍の情勢と、そこでの戦闘の戦闘体験を、高度なレベルで分析することで、洞察の収集に寄与した。
- International non-profit organization uses data science to confirm Guatemalan genocide:
Benetechis a non-profit organization that has been contracted by the likes of Amnesty International and Human Rights Watch to address controversial geopolitical issues through data science. Several years ago, they were contracted to analyze a massive trove of secret files from Guatemala’s National Police that were discovered in an abandoned munitions depot. The documents, of which there were over 80 million, detailed state-sanctioned arrests and disappearances that occurred during the country’s decades-long civil conflict that occurred between 1960 and 1996. There had long been whispers of a genocide against the country’s Mayan population during that period, but no hard evidence had previously emerged to verify these claims. Benetech’s scientists set up a random sample of the data to analyze its content for details on missing victims from the decades-long conflict. After exhaustive analysis, Benetech was able to come to the grim conclusion that genocide had in fact occurred in Guatemala. In the process, they were able to give closure to grieving relatives that had wondered about the fate of their loved ones for decades.Benetechは、データ・サイエンスを介して、紛争における地政学的な問題に対処するために、Amnesty International や Human Rights Watch などと連携する NPO である。 そして、数年前に、Guatemala の National Police が軍用貯蔵庫で見つけた、大量の機密ファイルについて、その分析を請け負った。 8000万枚以上ものドキュメントは、1960年~1996年に起こった長い紛争における、同国の逮捕者と行方不明者を詳述している。 そして、その期間において同国に居住するマヤ族に対して、大量虐殺が行われているというウワサがあったが、そうした申し立てを検証するための、確かな証拠は見つかっていなかった。 Benetech の科学者たちは、この数十年にもおよぶ長い紛争において、行方不明となった犠牲者の詳細を分析するために、そのデータからランダムにサンプリングしていく準備を整えた。 そして、徹底的な分析の後に、Guatemala において現実に大量虐殺が起こっていたという厳しい結論に、 Benetech は到達することになった。 そのプロセスにおいて、愛する家族の行方について、何十年にもわたり不思議に思い、また、深く悲しんでいる人々に、現実を伝えることができた。
Statistician develops innovative metrics tracking for baseball players, gains widespread recognition and a job with the Boston Red Sox:Bill James (he of Moneyball fame) is a well-known figure in the world of both baseball and statistics at this point, but that has not always been the case. James, a classically trained statistician and avid baseball fan, began publishing research in the early 1970s that took a more quantitative approach to analyzing the performance of baseball players. His work focused on providing specific metrics that could empirically support or refute specific claims about players, be it the amount of runs they contributed to in a given season or how their defensive abilities contributed to or detracted from a team’s success. James’ approach became known as sabermetrics and has since expanded to incorporate a wide range of quantitative analyses for measuring baseball metrics. Over time, sabermetrics has gained wide recognition in baseball to the point that it’s now employed by all 30 Major League Baseball teams for tracking player metrics. In 2003, James was named Senior Advisor of Baseball Operations by the Boston Red Sox, a position he holds to this day.
Bill James(Moneyball で有名)は、いまでは野球と統計の世界で署名な人物となったが、それが容易な道のりだっというわけではない。 James は、従来からの統計学を学び、野球を愛していた。そして、野球選手の成績を分析するための、量的なアプローチを用いて、1970年代の初めに研究成果を公表し始めた。 彼の作業は、基準の提供にフォーカスするものであった。それによりプレーヤーに対する評価を見直し、また、所定のシーズンにおける、走力と守備力に関する、チームへの貢献度を測定していった。 James のアプローチは、sabermetrics(野球に関するコンピュータ分析) として知られるようになり、また、野球に関するデータの測定において、広範囲におよぶ定量分析を取り込むために拡張されてきた。 そして、長い期間を経て、プレーヤー立ちの力量を測るために、Major League Baseball の 30チームが作用するにいたるまで、この sabermetrics は野球界で広く認識されるようになった。 2003 年に James は、Boston Red Sox から Senior Advisor of Baseball Operations と命名され、今日に至るまで、そのポジションを維持している。
- U.S. government uses R to coordinate disaster response to BP oil spill:In the early days of last year’s Deepwater Horizon disaster, the flow of oil rate from the spill was of primary concern; estimating it accurately was key to coordinating the scale and scope of the U.S. government’s response to the emergency. The National Institute of Science and Technology (NIST) was charged with making sense of the varying estimates that existed from both BP and independent third-parties. To do so, NIST used the open source
R languageto run an uncertainty analysis that harmonized the estimates from various sources to come up with actionable intelligence around which disaster response efforts could be coordinated.昨年の Deepwater Horizon 災害の初期において、その採油口から溢れる、石油の総量が関心事となっていた。つまり、それを正確に推測することが、アメリカ政府によるスケールとスコープの調整において、きわめて重要なポイントになった。 National Institute of Science and Technology(NIST)には、BP とサード・パーティーに存在する多様な見積もりを、理解するというプレッシャーがかかった。 それに対応するために、NIST はオープンソース R languageを用いて、各種のソースからの見積もりを調和させるという、不確実性の解析を行った。 そして、この大惨事への対処法を調整して、実施が可能なプランをもたらしていった。
- Medical diagnostics company analyzes millions of lines of data to develop first non-intrusive test for predicting coronary artery disease:CardioDX is a relatively small, Palo Alto, Calif.-based company that performs genomic research. One of their major initiatives over the past several years was developing a predictive test that could identify coronary artery disease in its most nascent stages. To do so, researchers at the company
analyzed over 100 million gene samples to ultimately identify the 23 primary predictive genes for coronary artery disease. The resulting test, known as the “Corus CAD Test,” was recognized as on of the “Top Ten Medical Breakthroughs of 2010” by TIME Magazine.CardioDX はゲノム解析を行う、Palo Alto, Calif. ベースの小じんまりとした企業である。 これまでの数年における、同社の主要な方向性の 1つとして、冠動脈疾患を早期に識別することが可能な、予測型テストの開発がある。 それを実現するために、同社の研究者たちは 1億個以上の遺伝子サンプルを分析し、最終的に、冠動脈疾患をもたらす 23種類の遺伝子を突き止めた。 この、「Corus CAD Test」と呼ばれるテスト結果は、TIME Magazine の “Top Ten Medical Breakthroughs of 2010” により、広く知られることになった。
These are but a few brief examples of the exciting work that’s being undertaken in the rapidly growing discipline of data science. More and more, data analysis is being relied on to provide context for critical business decisions, a trend that promises to increase as data sets grow larger and more complex and scientists continue to push the limits of statistical innovation.
これらは、数少ない事例であるが、データ・サイエンスにおける急成長している分野で、すでに着手されているエキサイティングな作業である。 クリティカルなビジネスの判断では、その背景の提供に依存する、さらに多くのデータが分析されている。そして、データセットが成長し複雑になるというトレンドに対応するために、統計のイノベーションという領域における、科学者たちによる闘いが続いている。
David Smith is vice president of community at Revolution Analytics, a company founded in 2007 to foster R analytics by creating programs to make it easier for data scientists to analyze large amounts of data.
Related research and analysis from GigaOM Pro:
- Mobile Q2: Smartphone growth surges; iPad’s rule continues
- NewNet Q2: Google closes the quarter with a bang
- Flash analysis: prospects for Google+
ーーーーー
日本でクラウドを展開するために必要なビジネス・モデルは、やはり Big Data を必要とするのでしょう。 それにしても、野球の話は面白いですね
ーーー ![]()
ーーーーー
<関連>
Google IO 2011 での、Big Data 関連ビデオをピックアップ!
Apple iCloud – 分散ストレージと同期により、クラウドの常識を打ち破る
Facebook は正攻法で、Billion 単位のメッセージを処理していく
Twitter サーチを 3倍速にする新アーキテクチャとは? _1
クラウド・コンピューティングのビジネス規模を Infographic で見る
Microsoft Research は Azure のために、Dryad 以外の Hadoop 対抗をリリースする
Microsoft Research Releases Another Hadoop Alternative for Azure
By Klint Finley / July 18, 2011 1:40 PM
http://www.readwriteweb.com/cloud/2011/07/mapreduce-for-microsoft-azure.php
Today Microsoft Research announced the availability of a free technology preview of Project Daytona MapReduce Runtime for Windows Azure. Using a set of tools for working with big data based on Google’s MapReduce paper, it provides an alternative to Apache Hadoop.
今日のことだが(7/18)、Microsoft Research は Project Daytona MapReduce Runtime for Windows Azure に関する、無償のテクノロジー・プレビューの提供についてアナウンスした。つまり、Google MapReduce ペーパーをベースとした、Big Data を用いる作業のためのツールセットとして、Apache Hadoop に代わる選択肢を提供することになる。
Daytona was created by the eXtreme Computing Group at Microsoft Research. It’s designed to help scientists take advantage of Azure for working with large, unstructured data sets. Daytona is also being used to power a data-analytics-as-a-service offering the team calls Excel DataScope.
この Daytona は、Microsoft Research の eXtreme Computing Group により作成された。 それは、大規模で構造化されていないデータ・セットに対して、Azure の先進性を活用する科学者を、支援するようにデザインされている。 さらに Daytona は、このチームが Excel DataScope と呼んでいる、data-analytics-as-a-service に対してパワーを提供するためにも用いられる。
Big Data Made Easy?
The team’s goal was to make Daytona easy to use. Roger Barga, an architect in the eXtreme Computing Group, was quoted saying:
このチームのゴールは、Daytona を使い易くすることにある。 以下は、この eXtreme Computing Group のアーキテクトである、Roger Barga の発言からの引用である:
"’Daytona’ has a very simple, easy-to-use programming interface for developers to write machine-learning and data-analytics algorithms. They don’t have to know too much about distributed computing or how they’re going to spread the computation out, and they don’t need to know the specifics of Windows Azure."
「 Daytona は、machine-learning とdata-analytics のアルゴリズムを記述する開発者のための、シンプルで使い易いプログラミング・インターフェイスを提供する。 そのため、開発者たちは、分配コンピューティングについて、また、計算能力を分散させる方式について、深い理解を必要としない。 さらには、Windows Azure の詳細すら知る必要がなくなる」
To accomplish this difficult goal (MapReduce is not known to be easy) Microsoft Research is including a set of example algorithms and other sample code along with a step-by-step guide for creating new algorithms.
この困難なゴールを達成するために(MapReduce は容易ではないと認識されている)、Microsoft Research はサンプル・アルゴリズムのセットを取り込みと、新しいアルゴリズム作成ための step-by-step ガイドを伴う、サンプルコードの取り込みを進めている。
Data Analytics as a Service
To further simplify the process of working with big data, the Daytona team has built an Azure-based analytics service called Excel DataScope, which enables developers to work with big data models using an Excel-like interface. According to the project site, DataScope allows the following:
Big Data を用いる作業のプロセスを、さらに単純化するために、Excel DataScope と呼ばれる Azure ベースの分析サービスを、この Daytona チームは構築している。それによりデベロッパーたちは、Excel-like なインターフェイスを用いて、Big Data モデルを取り扱うことができる。 このプロジェクト・サイトによると、 以下の項目が Datascope で実現される:
- Users can upload Excel spreadsheets to the cloud, along with metadata to facilitate discovery, or search for and download spreadsheets of interest.
- Users can sample from extremely large data sets in the cloud and extract a subset of the data into Excel for inspection and manipulation.
- An extensible library of data analytics and machine learning algorithms implemented on Windows Azure allows Excel users to extract insight from their data.
- Users can select an analysis technique or model from our Excel DataScope research ribbon and request remote processing. Our runtime service in Windows Azure will scale out the processing, by using possibly hundreds of CPU cores to perform the analysis.
- Users can select a local application for remote execution in the cloud against cloud scale data with a few mouse clicks, effectively allowing them to move the compute to the data.
- We can create visualizations of the analysis output and we provide the users with an application to analyze the results, pivoting on select attributes.
- ユーザーはクラウドへ向けて、Excel スプレッドシートをアップロードできる。そこには、発見や検索を容易にするためのメタデータが含まれ、また、重要なスプレッドシートをダウンロードすることになる。
- ユーザーはクラウドにおいて、きわめて大規模なデータセットのサンプルを取得し、検証と操作のためのサブセット・データを、Excel へ向けて抽出ができる。
- Windows Azure に実装された、data analytics と machine learning アルゴリズムのための拡張可能なライブラリーにより、Excel ユーザーは、それらのデータから洞察を抽出できる。
- ユーザーは、私たちが提供する Excel Datascope のリサーチ・リボンから、解析のためのテクニックやモデルを選択し、また、リモート処理をリクエストできる。Windows Azure のランタイム・サービスは分析のために、数100 個にいたるかも知れないCPU コアを用いて、そのための処理をスケールアウトしていく。
- ユーザーは、リモート処理のためのおローカル・アプリケーションを、クラウドで選択できる。それにより、クラウド・スケール・データを、数回のマウスクリックで処理することが可能となり、データに対する計算処理が効果的に達成される。
- 分析アウトプットに対する、ビジュアライゼーションが可能である。そして、結果を解析するためのアプリケーションを、ユーザーに提供することで、選択された属性の pivoting を実現する。
This reminds me a bit of Google’s integration between BigQuery and Google Spreadsheets, but Excel DataScope sounds much more powerful.
それは、BigQuery と Google Spreadsheets 結ぶ、Google のインテグレーションを思い出させるが、Excel DataScope の方がずっとパワフルに思える。
We’ve discussed data as a service as a future market for Microsoft previously.
なお、私たちは以前に、Microsoft における将来のマーケットとして、data as a service を解説している。
Microsoft’s Other Hadoop Alternative
Microsoft also recently released the second beta of its other Hadoop alternative LINQ to HPC, formerly known as Dryad. LINQ/Dryad have been used for Bing for some time, but not the tools are available to users of Microsoft Windows HPC Server 2008 clusters.
Microsoft は以前から、Dryad として知られる LINQ to HPC を、Hadoop に代わる選択肢として進めており、最近になって 2番目のベータを発表している。 はしばらくの間、LINQ/Dryad は Bing で使用されたが、Microsoft Windows HPC Server 2008 Cluster のユーザーが、利用可能というわけではない。
Instead of using MapReduce algorithms, LINQ to HPC enables developers to use Visual Studio to create analytics applications for big, unstructured data sets on HPC Server. It also integrates with several other Microsoft products such as SQL Server 2008, SQL Azure, SQL Server Reporting Services, SQL Server Analysis Services, PowerPivot, and Excel.
MapReduce アルゴリズムの利用に代えて、LINQ to HPC は、デベロッパーによる Visual Studio の使用を実現している。 それにより、HPC Server 上の、大規模・非構造データセットのための、分析アプリケーションが開発される。 そして、さらに、SQL Server 2008 および、SQL Azure、SQL Server Reporting Services、SQL Server Analysis Services、PowerPivot、Excel といった、Microsoft プロダクツとの統合も可能だ。
Microsoft also offers Windows Azure Table Storage, which is similar to Google’s BigTable or Hadoop’s data store Apache HBase.
さらに Microsoft は、 Google の BigTable や、Hadoop のデータストアである Apache HBase に相当するものとして、Windows Azure Table Storage を提供している。
More Big Data Initiatives from Microsoft
We’ve looked previously at Probase and Trinity, two related big data projects at Microsoft Research. Trinity is a graph database, and Probase is a machine learning platform/knowledge base.
私たちは以前に、Probase と Trinity という、2 つの Big Data 関連プロジェクトを、Microsoft Research で見ている。 Trinity はグラフ・データベースであり、Probase は machine learning platform/knowledge base である。
We also covered Project Barcelona, an enterprise search system that will compete with Apache Solr.
私たちは、Apache Solr と競合するエンタープライズ・サーチ・システムとして、Project Barcelona もカバーしている。
See Also
- The Limits of Big Data
- Is Apple iCloud Powered by Microsoft Windows Azure?
- Ex-Google Engineer Says the Company’s Software Infrastructure is Obsolete
- Is Microsoft’s Future in Data-as-a-Service?
- Gnip CEO on the Challenges of Handling the Real-Time, Big Data Firehose
ーーーーー
先日も、Microsoft Research が、Barrelfish というオープンソース OS(以下のリンク) に取り組んでいることを紹介しましたが、こちらの Project Daytona のページを見ても、オープンソース に関する表記はありませんでした。 ただ、いずれにしても、Microsoft Research の動きが活発になっているようで、とても歓迎できる状況だと言えます。 ーーー ![]()
ーーーーー
<関連>



The time is 2003. The web is still young and HTML is still page oriented. Ajax
The time is 2005. Things move fast on the Internet. The Internet has happened, it has become pervasive, higher speed, and interactive. Google is building their own datacenters and becoming more sophisticated at every level. Iconic systems like
The time is now. There’s no encyclopedia yet on how the Age of Instant works because it is still being developed. But because Google is quite open, we do get clues: 
























































































leave a comment