Agile Cat — in the cloud

ついに、Hadoop for Windows がデビューするらしい

Posted in .Selected, Apache, Big Data, Hadoop, Microsoft by Agile Cat on February 26, 2013

Hortonworks and Microsoft bring open-source Hadoop to Windows
http://wp.me/pwo1E-5GD

By
Barb Darrow – Feb 25, 2013
http://gigaom.com/2013/02/25/hortonworks-and-microsoft-bring-open-source-hadoop-to-windows/

_ Gigaom

Summary: Hortonworks Data Platform for Windows, now in beta, brings Hadoop to Excel and SQL Server (and vice versa.)

Summary: Hortonworks Data Platform for Windows はベータの段階にあるが、Excel と SQL Server に Hadoop をもたらすものとなる(その逆の見方もある)。

ーーーーー

imageThere’s probably no better way to open up big data to the masses than making it accessible and manipulatable — if that’s a word — via Microsoft Excel. And that ability gets closer to reality Monday with the beta release of Hortonworks Data Platform for Windows. The product of a year-old collaboration between Hortonworks and Microsoft is now downloadable.  General availability will come later in the second quarter, said Shawn Connolly, Hortonworks’ VP of corporate strategy,  in an interview.

Big Data を大衆に広めるという話しなら、Microsoft Excel を介して、そこへのアクセスを容易にし、また、操作しやすくする以上に、良い方法は無い。 そして、月曜日の Hortonworks Data Platform for Windows ベータのリリースにより、その機能の実現に近づいた。 Hortonworks と Microsoft による、1年間のコラボレーションの結果が、すでにダウンロードできるようになっている。  その全体が利用可能になるのは、Q2 の広範囲なるだろうと、 Hortonworks の VP of Corporate Strategy である Shawn Connolly が、インタビューに答えている。

The combination should  make it easier to integrate data from SQL Server and Hadoop and to funnel all that into Excel for charting and pivoting and all the tasks Excel is good at, Connolly added.

この組み合わせにより、SQL Server と Hadoop からのデータを統合し、その結果を Excel に流しこむことが容易になる。 そして、Excel の得意とする、作図やピボットといった作業で、それらのデータを利用できる、と Connolly は付け加えている。

imageHe stressed that this means the very same Apache Hadoop distribution will run on Linux and Windows. An analogous Hortonworks Data Platform for Windows Azure is still in the works.

さらに、彼は、同じ Apache Hadoop ディストリビューションが 、Linux と Windows で走ることになると強調している。 それと同様に、Hortonworks Data Platform for Windows Azure  が、開発の途上にある。

Microsoft opted to work with Hortonworks rather than to continue its own “Dryad” project, as GigaOM’s Derrick Harris reported a year ago. Those with long memories will recall this isn’t the first time that Microsoft relied on outside expertise for database work. The guts of early SQL Server came to the company via Sybase.

GigaOM の Derrick Harris が 1年前にレポートしたように、Microsoft は独自の「Dryad」プロジェクトを継続するより、Hortonworks と協調する道を選んだ。 昔のことを知っている人々は、社外のデータベース・エキスパートに Microsoft が依存することは、決して初めてのことではないと、思い出すだろう。 初期の SQL Server は、その内容を、Sybase に依存していたのだ。

The intersection of structured SQL and  unstructured Hadoop universes is indeed a hotspot, as Derrick Harris reported last week, with companies including Hadoop rivals Cloudera and EMC Greenplum all working that fertile terrain. That means Hortonworks/Microsoft face stiff competition. This topic, along with real-time data tracking, will be discussed at GigaOM’s Structure Data conference in New York on March 20-21.

Derrick Harris が先週に取り上げたように、構造化された SQL と、非構造の Hadoop が交わる点は、ほんとうの意味でホット・スポットである。そして、Hadoop のライバルである、Cloudera や EMC Greenplum などが、その興味深い領域に取り組んでいる。 それは、Hortonworks / Microsoft 連合軍が、厳しい戦いに直面することも意味する。 このトピックおよび、リアルタイム・データ・トラッキングは、3月 20-21日に New York で開催される、GigaOM Structure Data カンファレンスで解説される。

Upcoming: Structure:Data, Mar. 20-21, 2013, New York, Register by March 1 and save $200! More upcoming conferences.

Related research

ーーーーー

TAG indexこの Hortonwoks の Hadoop ですが、どのような形で Microsoft がまとめ上げるのか、とても気になっていました。Windows Azure の一部として、クラウドだけに特化するのであれば、Windows へのポーティングは不要です。 しかし、オンプレミスを前提とした、パッケージ化を考えるなら、Windows 版の Hadoop が不可欠です。 まぁ、どちらかをハッキリさせてというより、中庸をめざして、まずは、パッケージ化を進めていくという判断なのでしょう。いずれにせよ、OSS とは言え、Google の頭脳から生まれた Hadoop を、へんな拘りをもたずに、Microsoft が使うというのは、とても良いことだと思います。ac-stamp-232

ーーーーー

<関連>

Microsoft が発表した、OSS ベースのクラウド・サービスとは?
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Hadoop 王国は、戦国時代へと 突入する?

 

Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない

Posted in .Selected, Apple, Big Data, Google, Hadoop, MapReduce by Agile Cat on October 23, 2012

Apple’s ‘Mapocalypse’ Highlights Big Data Battle
http://wp.me/pwo1E-54a
October 3, 2012 –
Mike Barton
http://www.wired.com/insights/2012/10/mapocalypse-big-data-battle/

WIRED

The new Maps feature in Apple’s iOS 6 (launched with iPhone 5) has caused Apple a headache, and even led to its CEO apologizing. But more important than Apple’s ego is what the “mapocalypse” means in its bigger battle with Google and its Android platform. Forbes’ Dave Einstein writes in “Google vs. Apple Maps: Big-Data Battle, Cloudy Clash”:

Apple の iOS 6 における、新しい Maps 機能(iPhone 5で導入された)は同社にとって頭痛のタネとなり、また、CEO が謝罪するという事態をもたらした。 しかし Apple にとって、自身のエゴよりも重要なことは、この Mapocalypse が意味するものが、Google および Android プラットフォームとのバトルだという点だ。Forbes の Dave Einstein は、“Google vs. Apple Maps: Big-Data Battle, Cloudy Clash” で、以下のように書いている:

The battleground can be described in just two words: Big Data. Google has it; Apple is scrambling to catch up.

このバトルの背景は、たった 2つの言葉で説明できる。 つまり、Google は Big Data を使いこなし、その一方で Apple は、Big Data を急いで準備している段階にある。

G’day, North America! One example of the iOS 6 “mapocalypse.” Source: theamazingios6maps.tumblr.com

And it’s not just Maps, Einstein writes:

Einstein は、マップ以外についても、以下のように記述している:

Apple would seem to have the edge, but the more consumers use Siri, the more they may realize it’s a work in progress. Like Maps, it’s even being made fun of on TV. Android, meanwhile, has proven remarkably accurate at recognizing human speech and returning accurate answers.

Again, it’s all about Big Data. Speech recognition used to be a novelty for consumers, something to be used if you had Carpal Tunnel or another ailment that made it hard to use a computer.

…Google’s game changer used massive databases to store everything users said while voice-searching on their Android phones. Suddenly speech recognition became a data-driven, cloud service that trained itself. It compared the speech patterns of millions of users, correlated with the content and context of search queries.

Apple は、競争力を持っているように思われるだろうが、そして、多くのユーザーが Siri を使っているだろうが、それが開発途上にあることを知っているのかもしれない。 Maps と同様に、テレビでからかわれさえしている。 その一方で Android は、人間のj話し言葉を認識して、答えを返すことにおいて、驚くほど正確であると証明されている。

繰り返すが、それらすべてが、Big Data に関連する。 これまでの音声認識は、消費者に対するノベルティの類のものであり、もし Carpal Tunnel(手根管症候群)などの病気で、コンピュータを使うことが困難になったときに、使われる何かであった。

しかし、ゲーム・チェンジャーである Google は、Android Phone を使った音声検索の間に、ユザーが発するすべての言葉を、大規模なデータベースにストアするという手法を用いている。 突然に、音声認識がデータ駆動型になり、そのクラウド・サービスは、自身を洗練させ続ける。そこでは、何百万人というユーザのスピーチ・パターンが比較され、サーチ・クエリーの内容と脈略に関連づけられる。

Einstein writes: “Google’s advantage over Apple could easily continue to grow, because much of its product development ties right back into geo-location. From self-driving cars that know where they are to ‘augmented reality’ glasses right out of Philip K. Dick, the company is developing services based on location to help them improve things like Google Maps and Voice Search.”

さらに Einstein は、『 Apple に対する Google のアドバンテージは、そのプロダクト開発の大半が、ゲオ・ロケーションと緊密に結び付けられるため、容易に拡張し続けることが可能だ。 Philip K. Dick の小説にあるように、自身の位置を確認しながら自動操縦するクルマから、「複合現実感」のメガネにいたるまで、Google が開発するサービスは、自らを洗練させるためにロケーションをベースにする。そして、それは、Google Maps も、Voice Search も、同じことなのだ 』と記している

Google’s Android is the most popular mobile OS and growing like crazy, and you know the story online (read: big data collection in overdrive). This gives the company a growing jump on Apple.

Google の Android は、最も人気の高いモバイル OS であり、また、猛烈な勢いで成長している。そして、あなたはオンラインで、そのストーリーを探せる( 加速している Big Data での記事を読んでほしい)。 それにより、Google は Apple を飛び越せる。

Weigh in: Is Google’s cloud advantage playing out now with Maps and speech recognition? Is this jump on Big Data something Apple and others can ever match? Will Apple and others be forced to accept Google’s Big Data advantage and use Google tools such as Maps?

Weigh in:  Google Cloud のアドバンテージは、いまのところ、Maps と音声認識で展開しているのか? この、Big Data(のようなもの)へのジャンプにおいて、Apple などは、そもそも対抗できるのか? Apple などは、Google における Big Data のアドバンテージを受け入れ、また、Maps のような Google ツールを使うことを強いられるのか?

ーーーーー

imageいまの IT 業界に、イノベーション Big Four を見出すとしたら、Amazon/Apple/Facebook/Google なのだろうと思います。 そして、いわゆる Big Data で遅れを取っているのが Apple であり、それが Apple Maps で問題を起こしているというのは、とても興味深く、また、納得しやすい論点ですね。 image

ーーーーー

<関連>

IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Hadoop 王国は、戦国時代へと 突入する?
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Twitter が提供する、MySQL 関連のオープンソースとは
Microsoft が発表した、OSS ベースのクラウド・サービスとは?

Microsoft が発表した、OSS ベースのクラウド・サービスとは?

Posted in .Selected, Big Data, Hadoop, James Hamilton, Microsoft by Agile Cat on October 14, 2011

Microsoft Announces Open Source based Cloud Service
Thursday, October 13, 2011
http://perspectives.mvdirona.com/2011/10/13/MicrosoftAnnouncesOpenSourceBasedCloudService.aspx

ーーーーー

image

We see press releases go by all the time and most of them deserve the yawn they get. But, one caught my interest yesterday. At the PASS Summit conference Microsoft Vice President Ted Kummert announced that Microsoft will be offering a big data solution based upon Hadoop as part of SQL Azure. From the Microsoft press release, “Kummert also announced new investments to help customers manage big data, including an Apache Hadoop-based distribution for Windows Server and Windows Azure and a strategic partnership with Hortonworks Inc.”

私たちが目にするプレス・リリースは、その大半が退屈なものである。 しかし、昨日のことだが、とても興味深いものを見つけた。 PaaS Summit カンファレンスで、Microsoft Vice President である Ted Kummertが、Hadoop ベースの Big Data ソリューションを、SQL Azure の一部として提供すると発表したのだ。 その、Microsoft のプレスリリースによると、「 Kummert のアナウンスには、Windows Server と Windows Azure での、Apache Hadoop ベース・ディストリビューションと、Hortonworks との戦略的パートナーシップが含まれており、Big Data を取り扱う顧客を支援するための、新たな投資が行われる」とされる。

Clearly this is a major win for the early startup Hortonworks. Hortonworks is a spin out of Yahoo! and includes many of the core contributors to the Apache Hadoop distribution: Hortonwoks Taking Hadoop to Next Level.

明らかなことは、スタートアップである Hortonworks に、大きな成功がもたらされることだ。 Hortonworks は Yahoo! からのスピンアウトであり、また、Apache Hadoop ディストリビューションにおけるコア・コントリビュータである: Hortonwoks Taking Hadoop to Next Level

imageThis announcement is also a big win for the MapReduce processing model. First invented at Google and published in MapReduce: Simplified Data Processing on Large Clusters. The Apache Hadoop distribution is an open source implementation of MapReduce. Hadoop is incredibly widely used with Yahoo! running more than 40,000 nodes of Hadoop with their biggest single cluster now at 4,500 servers. Facebook runs a 1,100 node cluster and a second 300 node cluster. Linked in runs many clusters including deployments of 1,200, 580, and 120 nodes. See the Hadoop Powered By Page for many more examples.

さらに、このアナウンスメントは、MapReduce プロセシング・モデルにとっての、大きな勝利を意味する。 最初に Google で考案され、そして MapReduce として提供された:Simplified Data Processing on Large Clusters 。 つまり、Apache Hadoop のディストリビューションは、MapReduce のオープンソース実装である。 Hadoop は、Yahoo! において、きわめて広範囲で利用されている。いまでは、40,000 以上のノードが実行され、最大のシングル・クラスタは 4,500 サーバーにまで至っている。 また、Facebook は、1,100 ノードのクラスタと、300 ノードクラスタを運用している。さらに、LinkedIn も、1,200/580/120 のノードのディプロイメントを含めて、多数のクラスタを実行している。その他の、多数の事例に関しては、Hadoop Powered By Page を参照して欲しい。

In the cloud, AWS began offering Elastic MapReduce back in early 2009 and has been expanding the features supported by this offering steadily over the last couple of years adding support for Reserved Instances, Spot Instances, and Cluster Compute instances (on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)and support for more regions with EMR available in Northern Virginia, Northern California, Ireland, Singapore, and Tokyo.

クラウドにおいては、2009年の初頭より AWS が Elastic MapReduceの提供を開始し、この 2年の間に、着実に機能を拡張してきた。Reserved Instances や、Spot Instances、Cluster Compute Instances(on a 10Gb non-oversubscribed network – MapReduces just loves high bandwidth inter-node connectivity)を追加し、Northern Virginia/Northern California/Ireland/Singapore/Tokyo などのリージョンをサポートしている。

Microsoft expects to have a pre-production (what they refer to as a “community technology Preview”) version of a Hadoop service available by the “end of 2011”. This is interesting for a variety of reasons. First, its more evidence of the broad acceptance and applicability of the MapReduce model. What is even more surprising is that Microsoft has decided in this case to base their MapReduce offering upon open source Hadoop rather than the Microsoft internally developed MapReduce service called Cosmos which is used heavily by the Bing search and advertising teams. The What is Dryad blog entry provides a good description of Cosmos and some of the infrastructure build upon the Cosmos core including Dryad, DryadLINQ, and SCOPE.

Microsoft は「2011年の終わり」までに、Hadoop サービスのプリ・プロダクション・バージョン(彼らの言う “community technology Preview”)を持ちたいと望んでいる。  このことは、さまざまな点で興味深いものである。 第一に、MapReduce モデルが、広範囲で受け入れられ、その適用性が証明されたことになる。  さらに驚くべきことは、Microsoft による MapReduce 提供が、オープンソースである Hadoop ベースで行われることである。つまり、Microsoft が内製し、Bing サーチと広告チームで利用されている、Cosmos という MapReduce サービスを押しのけることになる。 What is Dryad ブログのエントリーには、Cosmos に関する丁寧な説明と、その上に構築された Dryad/DryadLINQ /SCOPE などの情報が提供されている。

As surprising as it is to see Microsoft planning to offer MapReduce based upon open source rather than upon the internally developed and heavily used Cosmos platform, it’s even more surprising that they hope to contribute changes back to the open source community saying “Microsoft will work closely with the Hadoop community and propose contributions back to the Apache Software Foundation and the Hadoop project.”

つまり、Microsoft 内部で開発され、各部門で利用されている Cosmos プラットフォームよりも、オープンソース・ベースのMapReduce の提供を計画している点は、驚くべきことである。そして、「Microsoft は Hadoop コミュニティと緊密に作業を進め、Apache Software Foundation と Hadoop Project に対してコントリビュートシていく」と言い、そこで得られた成果を、オープンソース・コミュニティに戻していきたいとしている点に、さらに驚かされる。

· Microsoft Press Release: Microsoft Expands Data Platform
· Hortonsworks Press Release: Hortonworks to Extend Apache Hadoop to Windows Users
· Hortonworks Blog Entry: Bringing Apache Hadoop to Windows

Past MapReduce postings on Perspectives:

· MapReduce in CACM
· MapReduce: A Minor Step Forward
· Hadoop Summit 2010
· Hadoop Summit 2008
· Hadoop Wins TeraSort
· Google MapReduce Wins TeraSort
· HadoopDB: MapReduce over Relational Data
· Hortonworks Taking Hadoop to Next Level

James Hamilton

e: jrh@mvdirona.com
w: http://www.mvdirona.com
b: http://blog.mvdirona.com / http://perspectives.mvdirona.com

ーーーーー

TAG index昨年の夏に Ray Ozzie が去り、秋には Bob Muglia を解任してしまい、大事な時期に空白の数カ月をもたらしてしまった Microsoft ですが、久々に良いニュースが聞けて嬉しいですね。 また、最初の Hadoop World が開催されてから( 3回目の Hadoop World NYC は11月)、わずか 2年で、Hadoop も重要なポジションを確立しましたね。そちらの側から見ても、とても嬉しいニュースです。 なお、文中でも参照している Hortonworks に関する記事は、<関連>の先頭にありますので、よろしければ、ご参照ください。ーーー __AC Stamp 2

ーーーーー

<関連>

Yahoo! から派生した Hortonworks が 次期 Hadoop を語る by J.H.
Big Data を探せ! アメリカの 5つの具体的な事例とは?
クラウドで Big Data をハンドリングする 6 社の事例
OpenFlow と Big Data の 深い関係について
HP が $10B で 買収する Autonomy は、Big Data のスペシャリスト?

 

Google の 3つの世代を振り返る – Batch, Warehouse, Instant

Posted in .Selected, Big Data, Google by Agile Cat on September 27, 2011

The Three Ages of Google – Batch, Warehouse, Instant
Monday, August 29, 2011
http://highscalability.com/blog/2011/8/29/the-three-ages-of-google-batch-warehouse-instant.html

_ highscalability

imageThe world has changed. And some things that should not have been forgotten, were lost. I found these words from the Lord of the Rings echoing in my head as I listened to a fascinating presentation by Luiz André Barroso, Distinguished Engineer at Google, concerning Google’s legendary past, golden present, and apocryphal future. His talk, Warehouse-Scale Computing: Entering the Teenage Decade, was given at the Federated Computing Research Conference. Luiz clearly knows his stuff and was early at Google, so he has a deep and penetrating perspective on the technology. There’s much to learn from, think about, and build.

世界は変化した。 そして、忘れ去られるべきではない、いくつかのものが失われた。 Google の Distinguished Engineer である、Luiz Andre Barroso による魅力的なプレゼンテーションを聴いたとき、この Lord of the Rings の言葉が、私の頭の中で響いていることに気づいた。それは、Google における伝説的な過去と、現在の輝き、そして疑わしき未来のことである。 彼の話である、Warehouse-Scale Computing: Entering the Teenage Decade は、Federated Computing Research Conference で提供されている。 明らかに、Luiz は自身の専門分野に明るく、また、早期の Google に在籍していた。 したがって、このテクノロジーに対して、深く鋭い見識を持っている。 そこには、学習し、思考し、構築すべき、数多くの事柄がある。

Lord of the Rings applies at two levels. At the change level, Middle Earth went through three ages. While listening to Luiz talk, it seems so has Google: Batch (indexes calculated every month), Warehouse (the datacenter is the computer), and Instant (make it all real-time). At the “what was forgot” level, in the Instant Age section of the talk,  a common theme was the challenge of making low latency systems on top of commodity systems. These are issues very common in the real-time area and it struck me that these were the things that should not have been forgotten.

Lord of the Rings を、2つのレベルに対して適用する。 このレベルの変節において、Middle Earth は 3つの世代を経過してきた。Luiz の話に耳を傾けると、Google には Batch(毎月計算されるインデックス)、Warehouse( データセンターこそコンピューティング)、そし てInstant(すべてをリアル・タイムに)があるように思われる。 この話において、Instant Age セクションの「忘れ去られたもの」レベルに在る普遍的なテーマは、普及品システムの上に低レイテンシー・システムを構築するというチャレンジであった。 それは、リアルタイム・エリアにおける極めて普遍的な問題であり、また、忘れ去られるべきものではないと、私の頭の中に響いた。

What is completely new, however, is the combining of Warehouse + Instant, and that’s where the opportunities and the future is to be found- the Fourth Age.

しかし、完全に新しいものというと、それは Warehouse + Instant という結合であり、また、機会と未来が見いだされる、Fourth Age のあるべき場所となる。

The First Age – The Age of Batch

imageThe time is 2003. The web is still young and HTML is still page oriented. Ajax has been invented, but is still awaiting early killer apps like Google Maps and a killer marketing strategy, a catchy brand name like Ajax.

話は 2003年にさかのぼる。 Web は、まだ若く、HTML はページ指向であった。そして、Ajax が考案されたが、Google Maps のようなキラー・アプリ待っている状況であり、Ajax のような魅力的なブランドネームを持つ、キラー・マーケティング戦略が待ち望まれていた。

Google is batch oriented. They crawled the web every month (every month!), built a search index, and answered queries. Google was largely read-only, which is pretty easy to scale. This is still probably the model most people have in their minds eye about how Google works.

Google は、バッチ志向である。 毎月の Web クローリングを行い(毎月だったのだ!)、検索インデックスを構成し、クエリーに対して答えていた。 Google の大部分はリードオンリーであり、また、そのスケールも、きわめて容易であった。おそらく、この段階の Google は、それが機能すろ様子に、人々が関心をもつという、モデルであったに過ぎない。

Google was still unsophisticated in their hardware. They built racks in colo spaces, bought fans from Walmart and cable trays from Home Depot.

Google は、ハードウェアという視点においても洗練されていなかった。 彼らは、コロケーション・スペースにラックを構築し、Walmart からファンを買い、Home Depot からケーブル・トレイを仕入れていた。

It’s quaint to think that all of Google’s hardware and software architecture could be described in seven pages: Web Search for a Planet: The Google Cluster Architecture by Luiz Barroso, Jeffrey Dean, and Urs Hoelzle. That would quickly change.

Google のハードウェアとソフトウェアにおける、すべてのアーキテクチャが、Luiz Barroso/Jeffrey Dean/Urs Hoelzle による 7ページのドキュメン 『 Web Search for a Planet: The Google Cluster Architecture 』 に記述できていた、と思うこと自体が興味深い。 そして、それらは急速に変化していった。

The Second Age – The Age of the Warehouse

The time is 2005. Things move fast on the Internet. The Internet has happened, it has become pervasive, higher speed, and interactive. Google is building their own datacenters and becoming more sophisticated at every level. Iconic systems like BigTable are in production.

時は 2005年である。 インターネット上の動向が加速してきた。 そして、普及と、高速化と、対話型の実現が、インターネット上で実現されていった。 Google は自身のデータセンターを構築し、すべてのレベルにおいて更に洗練されていった。 BigTable のような象徴的なシステムが、プロダクションのレベルにあった。

About this time Google realized they were building something qualitatively different than had come before, something we now think of, more or less, as cloud computing. Amazon’s EC2 launched in 2006. Another paper, this one is really a book,  summarizes what they were trying to do: The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines by Luiz André Barroso and Urs Hölzle. Note the jump from 7 pages to book size and note that it was published in 2009, 4 years after they were implementing the vision. To learn what Google is really up to now will probably take an encyclopedia and come out in a few years, after they are on to the next thing.

この時点において、従来からのものとは質的に異なる何かを、Google は構築していると悟った。それは、多かれ少なかれ、クラウド・コンピューティングとして、現在の我々が考えている何かである。 そして Amazon の EC2 が、2006年に立ち上がった。 もう 1つのペーパーが、今度は本物の本である、The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines が Luiz Andre Barroso と Urs Holzle により書き下ろされ、彼らが行おうとしていることを要約した。 そのノートは、当初の 7ページからブックサイズにまで拡大され、彼らがビジョンを実装した 4年後の、2009年に出版された。 これまでに Google が行ってきた、本当のことを学習しようとするなら、彼らが次のステージへ移った後に、おそらく百科事典を手に取り、数年を費やす必要があるだろう。

The fundamental insight in this age is that the datacenter is the computer. You may recall that in the late 1980s Sun’s John Gage hailed “the network is the computer.” The differences are interesting to ponder. When the network was the computer we created client-server architectures that appeared to the outside world as a single application, but in reality they were made of individual nodes connected by a network. Wharehouse-scale Computing (WSC) moves up stack, it considers computer resources, to be as much as possible, fungible, that is they are interchangeable and location independent.  Individual computers lose identity and become just a part of a service. Sun later had their own grid network, but I don’t think they ever had this full on WSC vision.

この年代における基本的な洞察は、[the datacenter is the computer]という点に集約される。1980年代の後期に、Sun の John Gage が[the network is the computer]という概念を支持したことを思い出すかもしれない。 この相違点について、思い巡らすのも面白い。 そして、[ the network is the computer]が登場したとき、外側の世界と結ぶクライアント・サーバ・アーキテクチャを、私たちはシングル・アプリケーションとして構成した。しかし、その実体は、ネットワークにより接続される、個別のノードから構成されるものであった。  Wharehouse-scale Computing(WSC)は、考え得る限りのコンピュータ・リソースを、上位のスタックへと押し上げる。 そして、その代償として、ロケーションに依存しない、置き換えが可能なものへとなっていく。それぞれのコンピュータがアイデンティティを失い、サービスにおける単なる一部へと変化していく。 Sun の後期には、自身のグリッド・ネットワークを存在していたが、この WSC のフル・ビジョンを、彼らが持っていたとは思えない。

Warehouse scale machines are different . They are not made up of separate computers. Applications are not designed to run single machines, but to run Internet services on a datacenter full of machines. What matters is the aggregate performance of the entire system.

Warehouse スケールのマシンは、別の考え方による。 それらは、別個のコンピュータで構成されるものではない。 アプリケーションをシングル・マシンで実行するのではなく、データセンターを埋め尽くす全てのマシンで、インターネット・サービスを実行するようにデザインされている。 重要なことは、全体的なステムのパフォーマンス・アグリゲーションである。

The WSC club is not a big one. Luiz says you might have warehouse scale computer if you get paged in the middle of the night because you only have petabytes of data of storage left. With cloud computing

この WSC の世界は、決して広ものではない。 Luiz が言うには、ストレージにペタバイトのデータ残っているから、真夜中に呼び出される場合もあるという、Warehouse スケール・コンピュータの世界になるらしい。

The Third Age – The Age of Instant

The time is now. There’s no encyclopedia yet on how the Age of Instant works because it is still being developed. But because Google is quite open, we do get clues: Google’s Colossus Makes Search Real-Time By Dumping MapReduce; Large-Scale Incremental Processing Using Distributed Transactions And Notifications; Tree Distribution Of Requests And Responses; Google Megastore – 3 Billion Writes and 20 Billion Read Transactions Daily; and so much more I didn’t cover or only referenced.

ようやく、現在にまで戻ってきた。 それは、まだ開発の途上であるため、Age of Instant の機能や振る舞いに関する百科事典も無い。 ただし、Google はきわめてオープンであるため、私たちは手がかりを得られる: Google’s Colossus Makes Search Real-Time By Dumping MapReduce; Large-Scale Incremental Processing Using Distributed Transactions And Notifications; Tree Distribution Of Requests And Responses; Google Megastore – 3 Billion Writes and 20 Billion Read Transactions Daily ; などの、カバーできていない、リファレンスだけのものがある。

Google’s Instant Search Results is a crude example Luiz says of what the future will hold. This is the feature that when you type in a letter in the search box you instantly get back query results. This means for every query 5 or 6 queries are executed. You can imagine the infrastructure this must take.

Google の Instant Search Results は、 Luiz の言う未来へ向けた、まだ荒削りな事例である。 この機能は、検索ボックスで文字入力した直後に、クエリーにより結果を受け取るというものである。 つまり、すべての検索において、5~6 回のクエリーが実行されることになる。そのために必要なインフラストラクチャについて、あなたはイメージできるだろうか。

The flip side of search is content indexing. The month long indexing runs are long gone. The Internet is now a giant event monster feeding Google with new content to index continuously and immediately. It is astonishing how quickly content is indexed now. That’s a revolution in architecture.

検索の裏側にあるのは、コンテントのインデックス化である。 1ヶ月も前のインデキシングを実行しなくなってから、ずいぶんと歳月が経っている。 そしてインターネットは、新しいコンテントのインデックスを、連続的かつ即時的も Google に供給する、巨大なイベント・モンスターであり続ける。 現在における、コンテントのインデックス化を評価するなら、そのスピードに驚くばかりとなる。 それは、アーキテクチャにおける革命である。

Luiz thinks in the next few years the level of interactivity, insight and background information the system will have to help you, will dwarf what there is in Instant Search. If you want to know why Google is so insistent on using Real Names in Google+, this is why. Luiz explains this change having 4 drivers:

Luiz の考えでは、この先の数年において、対話性と、洞察力、バックグラウンド情報のシステムにより、ユーザーは支援される必要があるようだ。 それにより、Instant Search は突出した存在ではなくなる。なに故に、Google+ における Real Names 使用を、Google が強く主張しているのかと考えるなら、それが答えなのかもしれない。 Luiz の説明によると、この変更は、以下の 4項目を含んでいる:

  • Applications – instantaneous , personalized, contextual
  • Scale – increased attention to latency tail
  • Efficiency – driving utilization up, and energy/water usage down
  • Hardware Trends – non-volatile storage, multi-cores, fast networks

Instant in the context of Warehouse computing is a massive engineering challenge. It’s a hard thing to treat a datacenter as a computer and it’s a hard thing to provide instant indexing and instant results, to provide instant in a warehouse scale computer is an entirely new level of challenge. This challenge is what the second half of his talk covers.

Warehouse コンピューティングという環境での Instant は、大規模エンジニアリングにおける課題である。 Ddatacenter as a Computer の取り扱いは難しく、また、Instant インデキシングと Instant リザルトの提供も難しいことである。Warehouse スケールのコンピューティングにおいて Instant を提供することは、完全に新しいレベルのチャレンジなのである。 このチャレンジについては、彼の話の後半でカバーされている。

The problem is we aren’t meeting this challenge. Our infrastructure is broken. Datacenters have the diameter of a microsecond, yet we are still using entire stacks designed for WANs. Real-time requires low and bounded latencies and our stacks can’t provide low latency at scale. We need to fix this problem and towards this end Luiz sets out a research agenda, targeting problems that need to be solved:

何か問題かといえば、この課題に対して、私たちが立ち向かっていないことである。 私たちのインフラストラクチャは、壊れている。 データセンターは、マイクロ・セカンド・レベルの容量を有しているが、私たちは依然として、WAN のためにデザインされた全体的なスタックを使っている。 Real-time は、低レイテンシと結合レイテンシを要求し、また、私たちのスタックは、必要とされるスケールでの低レイテンシを提供できない。 この問題をフィックスする必要があり、また、Luiz が設定した研究アジェンダに立ち向かっていく必要性がある。 そして、解決されるべき問題点は、以下のとおりである:

  • Rethink IO software stack. An OS that makes scheduling decisions 10s of msecs is incompatible with IO devices that response in microseconds.
  • Revisit operating systems scheduling.
  • Rethink threading models.
  • Re-read 1990′s fast messaging papers.
  • Make IO design a higher priority. Not just NICs and RDMA,  consider CPU design and memory systems.

“The fun starts now” Luiz  says, these are still very early days, predicting this will be the:

『 興味深いことが始まった』と Luiz は言う。 そして、以下の項目を予測するには、まだ、日が浅すぎる:

  • Decade of resource efficiency
  • Decade of IO
  • Decade of low latency (and low tail latency)
  • Decade of Warehouse-scale disaggregation, making resources available outside of just one machine, not just a single rack, but all machines.

This is a great talk, very informative, and very inspiring. Well worth watching. We’ll talk more about specific technical points in later articles, but his sets the stage not just for Google, but for the rest of the industry as well.

このトークは、とても素晴らしく、また有益であり、大いに触発される。 考えるべき、充分な重みを持つ事柄である。 私たちは、この後の記事においても、特定のテクニカル・ポイントについて説明していくだろう。 ただし、彼のセットするステージは Google のためだけに有るのではなく、この業界全体のための有るのだ。

Related Articles

 

 

 

 

ーーーーー

TAG indexひさびさの、Todd Hoff さんの記事です(Big Data カンファレンスのリストはありましたが)。 この記事は、たしか 8月の終わりにポストされていたのですが、f8 が気になって手を付けられずにいました。 でも、Facebook が新機軸を発表した後に、こうして両社を見比べてみると、やはり Google はインフラストラクチャの会社なのだと感じさせてくれますね。 とてもカッコ良いです :)   このドキュメントの先にあるリファレンスは、まだ、まったく見ていませんが、きっと深遠な世界が広がっているのでしょうね。 ーーー __AC Stamp 2

ーーーーー

<関連>

Google Instant では、リアルタイム検索のために MapReduce を排除!
Google Megastore – 1日で 30億 Write/200億 Read のトランザクションを実現
Google の発想 – リクエストとレスポンスを Tree で制御する
Google IO 2011 での、Big Data 関連ビデオをピックアップ!
Google – Cluster Computing and MapReduce Lecture 1-5
Google は 1000万台のサーバーを目指す ?
Google 的 クラウド連携の ABC ?

 

OpenFlow と Big Data の 深い関係について

Posted in .Selected, Big Data, Hadoop, Network, OpenFlow by Agile Cat on September 7, 2011

OpenFlow: A Technology on the Move
By Kyle Forster Jul. 24, 2011, 9:00am
http://gigaom.com/cloud/openflow-a-technology-on-the-move/

_ Gigaom

OpenFlow may be one of the hotter buzzwords in bleeding-edge networking technologies these days, but getting past the emotional exuberance and down to brass tacks in this area can be difficult. Why? First,the OpenFlow protocol is a sort of infrastructure-of-infrastructure that can be applied many places. Second, OpenFlow continues to pop up in new contexts as the ecosystem around the technology expands. This is a story of an engineering achievement built to solve one problem that has become the root of a veritable family tree of solutions for problems in the networking space.

OpenFlow は、最近の先端ネットワーク・テクノロジーにおける、ホットなバズワードの 1つかもしれない。 しかし、このエリアで、感情のレベルを超え、また、核心にまで到達することは、難しいものにもなり得る。 なぜだろう? 最初に、この OpenFlow プロトコルが、数多くの状況に適応し得る、インフラストラクチャの中のインフラストラクチャという種類である点があげられる。 続いて、そのテクノロジーの周辺にエコシステムが広がるにつれて、OpenFlow には新しいコンテキストが、登場し続けることも指摘しておく。 それは、1つの問題を解決すために構築された、工学的な業績の物語である。 そして、その問題とは、紛れもないファミリー・ツリーの、ルートとなるソリューションに根ざすものとなる。 つまり、それにより、ネットワーク空間に横たわる数々の問題が解決され、また、数々の問題が生じているという状況にあるのだ。

How OpenFlow got here

imageIf you look at the OpenFlow v1.0 spec – a scant 27-page-long document – it isn’t immediately obvious that this is going to be useful, much less revolutionary. At its most basic level, OpenFlow is a protocol for server software (a “controller”) to send instructions to OpenFlow-enabled switches, where these instructions give direct control over how those switches forward traffic through the network.

OpenFlow v1.0 spec - 27ページの長いドキュメント - を読むにしても、それが有用であっても、それほど革命的ではないことは、ただちには見抜けないだろう。  OpenFlow とは、その最も基本的なレベルにおいて、OpenFlow 対応のスイッチへ向けてインストラクションを送る、サーバー・ソフトウェア(コントローラー)のためのプロトコルのことである。そして、インストラクションを受け取ったスイッチには、ネットワークを介してトラフィックを転送する方法について、ダイレクトなコントロールが与えられる。

I think of OpenFlow like an x86 instruction set for the network – it’s low-level, but it’s very powerful. Continuing that analogy, if you read the x86 instruction set for the first time, you might walk away thinking it could be useful if you need to build a fancy calculator, but using it to build Linux, Apache, Microsoft Word or World of Warcraft wouldn’t exactly be obvious. Ditto for OpenFlow. It isn’t the protocol that is interesting by itself, but rather all of the layers of software that are starting to emerge on top of it, similar to the emergence of operating systems, development environments, middleware and applications on top of x86.

私の考える OpenFlow とは、ネットワークのための x86 インストラクション・セットのようなものであり、低レベルではあるが、きわめてパワフルなものとなる。 この類推を、もう少し続ける。 あなたが、x86 インストラクション・セットを始めて読んだとき、シャレた計算器を構築するのには、有用になり得ると思ったことだろう。しかし、それにより、Linux や、Apache、Microsoft Word、World of Warcraft が構築されるとは、確信できなかっただろう。 OpenFlow も、同じである。 それは、単体で興味を惹くプロトコルではないが、あらゆるソフトウェア・レイヤが、その上に出現し始めている。つまり、x86 上に、オペレーティング・システムや、開発環境、ミドルウェア、アプリケーションなどが出現してきた状況に似ているのだ。

クリックで拡大 ⇒

The evolution of OpenFlow … for now.

Image courtesy of Flickr user flickrohit.

From where I sit, OpenFlow got its first traction outside of academia in the super-large data centers of companies trying to solve really big data problems. Several years ago, these teams were faced with the daunting task of building a network for map-reduce/Hadoop clusters that could scale to the hundreds of thousands of servers.

私の視点からだと、OpenFlow がアカデミックの外側で最初に得たものは、Big Data の問題を解決しようとする企業の、きわめて大規模なデータセンターからの推進力だと思える。 数年前のことだが、それらのチームは、何十万のサーバーにまでスケールする MapReduce / Hadoop クラスタ用のネットワーク構築において、困難なタスクに直面していた。

Full cross-sectional bandwidth is a must-have requirement for these big data applications, and it doesn’t take much back-of-the-envelope calculating to come to the conclusion that a tree-based architecture will require throughput on core switches/routers that simply can’t be bought at any price right now. Furthermore, the networks in these clusters are no longer so cleanly distinguishable from the application software. Instead, they are just one component in an overall big, big data system, and they need programmatic interfaces that play nicely with other parts of the system. From these early efforts to support big data apps came a new generation of non-tree architectures, all closely tied to concepts that we see in OpenFlow such as flexible forwarding and the ability to really program the network to meet specific application needs.

完全な断面帯域( cross-sectional bandwidth)が、それらの Big Data アプリケーションにとって、絶対に欠かせない要件となる。ただし、その結論を、計算から導き出すのは、たやすい事ではない。つまり、コアとなるスイッチ/ルーター上で、スループットを要求する Tree Base のアーキテクチャは、いかなる対価を支払っても購入できないものとなる。 それどころか、それらのクラスタに収まったネットワークは、もはや対象となるアプリケーション・ソフトウェアから、それほど明確に分離することができなくなる。その代わりに、Big Data システム全体の中の 1つのコンポーネントとなり、システムにおける他の部分と上手にインタラクトする、プログラマブルなインターフェイスが必要となる。Big Data アプリケーションをサポートするための、早い時期から積み上げられてきた努力から、次世代 Non-Tree アーキテクチャがもたらされている。それは、柔軟な転送のための機能と、アプリケーション固有の要件を充たすネットワーク・プログラミング能力といった、OpenFlow のコンセプトと密に結び付けられたものとなる。

R&D in this area started in earnest a few years ago – roughly coinciding with the formation of the first few OpenFlow startups and the beginnings of the academia-meets-industry Tuesday OpenFlow meetings back at Stanford. Motivated by the big data problem, that group planted the seeds of the OpenFlow protocol. With the Open Networking Foundation forming this year and talk of large-scale production builds underway, these seeds are starting to bear (commercial) fruit.

このエリアにおける R&D は、数年前から本格的に始まっている。早期における数少ない OpenFlow スタートアップの形成と、 Stanford に戻った産学 Tuesday OpenFlow ミーティングは、ほぼ同時に起こっている。 Big Data の問題により、興味を持つことになったグループが、OpenFlow プロトコルに SEED を植え付けた。今年に設立された Open Networking Foundation と、構築中のラージ・スケール・プロダクション関係筋の話によると、それらの SEED は、果実(ビジネス)を実らせ始めている。

OpenFlow goes webscale and then to the cloud

As with many scientific achievements, solving this massive-scale big data problem has generated solutions to many related problems. For example, large-scale public Infrastructure-as-a-Service (IaaS) cloud providers realized this new network architecture better serves their needs. However, there were still some unaddressed problems, such as needing to isolate each customer/tenant into its own network.

数多くの科学的な業績と同様に、きわめて膨大なスケールの、Big Data における問題を解決することは、それに関連する大量の問題に対するソリューションを生み出す。 たとえば、ラージ・スケールの IaaS クラウド・プロバイダたちが、この新しいネットワーク・アーキテクチャにより、彼らのニーズが充たされることを悟った。 しかし、それぞれのカスタマ/テナントを、彼ら自身のネットワークの中に分離していく必要性といった、いくつかの取り組まれていない問題があった。

image

Nick McKeown, who helped develop OpenFlow at Stanford.

Further, each tenant is constantly submitting requests to add/remove VMs, and servicing these dynamic requests often requires spreading VMs all throughout a data center and then trying to move them back closer to each other. Solving these problems requires some very fancy and often custom Layer 2 and Layer 3 gymnastics — new problems to solve, and OpenFlow turns out to be a great fit there because it allows the network designers to more easily deploy the custom forwarding policy they need across the portions of the network that need it.

さらに、それらのテナントは、VM を add/remove するためのリクエストを発行し、また、そのためのダイナミックなリクエストへの対応により、データセンター全体に VM を展開することが頻繁に起こり、さらには、お互いに近い位置へ戻そうとすることもある。 これらの問題を解決するためには、きわめて洗練された、そして、多くの場合にカスタムなものとなる、Layer 2 と Layer 3 の知的訓練が必要となる。 つまり、それが解決すべき新しい問題であり、また、そのためには OpenFlow が最適であると理解できる。なぜなら、ネットワーク・デザイナーたちが、必要とされるネットワーク内の特定部分をまたいで、カスタムな転送ポリシーを配置することを、OpenFlow は容易に実現するからである。  

Who knows what tomorrow will bring

That brings us up to the R&D happening today where we see a new branch of OpenFlow solutions emerging in trials for private IaaS clouds. While not ‘multi-tenant’ in quite the same sense as the public clouds, these deployments have a lot of issues in common with public clouds. The cross-section bandwidth problem still exists, of course, but now the virtualization, isolation, delegated administration and co-existence with classic network architectures have become key problems to solve. OpenFlow allows the network to be programmed directly to solve these problems with the same speed that IaaS providers have become accustomed to with server virtualization.

ようやく、いまの R&D で起こっている事象まで、話がつながってきた。 そこでは、プライベートの IaaS クラウドのためのトライアルとして、OpenFlow ソリューションに新しい分岐が出現していることを確認できる。 マルチ・テナントは、パブリック・クラウドとは全く異なる意味を持つが、そのディプロイメントにおいいては、パブリック・クラウドと共通に数多くの問題が存在する。 もちろん、断面帯域( cross-sectional bandwidth)の問題も依然として存在するが、いまでは、仮想化や分離、そして管理の委任、さらには、従来からのネットワーク・アーキテクチャの共存などが、解決するべき重要な問題となっている。 OpenFlow は、それらの問題をダイレクトに解決するための、ネットワーク・プログラミングを実現するが、それは、IaaS プロバイダが、サーバーの仮想化で経験したスピードで進んでいく。

Are there more of these branches of the OpenFlow family tree blossoming? Of course. One short blog post is not quite enough to talk about OpenFlow in the campus LAN environment starting to get traction in some of the original research universities or the early interest in OpenFlow as “the new stackable” for small/medium business networking. I’ll leave those for future posts.

開花した OpenFlow ファミリーの大樹には、その他の枝もあるのだろうか? もちろん、ある。 このような、ショート・ブログ・ポストで、キャンパス LAN 環境における OpenFlow について書くことは不可能だ。大元である大学での研究において、また、small/medium ビジネス・ネットワークキングのための、STACK-ABLE な OpenFlow に対する早期からの関心事として、いくつかの事柄が促進されている。 今後のポストにおいて、それらに触れていきたい。

Net-net, is OpenFlow going to be useful? Absolutely yes. What is it going to be used for? I don’t think that there is any one answer, but rather a family tree that is growing new branches, blossoming and bearing new fruit as we speak.

最終的な収支として、OpenFlow は有用なものになるのだろうか? 絶対的に Yes である。 何のために、それは使われるのか? そこに 1つの答えがあるとは、私は思わない。しかし、私たちが話をするように、この大樹には、新しい枝が成長し、花が咲き、新鮮な果物が実っていくだろう。

Kyle Forster is the VP of sales and marketing and co-founder of BigSwitch Networks.

Related research and analysis from GigaOM Pro:

ーーーーー

TAG index訳していて、止まらなくなってしまう、面白さ・・・ でした。Agile_Cat には Big Data とか、Hadoop とかのカテゴリもあるのですが、それらと OpenFlow が連携するという、いわば歴史的な瞬間が訪れたわけです :)   それにしても、データセンター内の複雑なネットワークというのは、とても深刻な問題なのだと思います。 おそらく、Amazon AWS のダウンも、after OpenFlow であれば回避できた問題なのでしょう。 そう考えると、クラウドも、まだまだ これからのテクノロジーなのだと実感してしまいますね。 ーーー __AC Stamp 2

ーーーーー

<関連>

OpenFlow のゴールとは?
OpenFlow のスイッチとは?
OpenFlow 専門家になるための近道とは?
OpenFlow により、ネットワーク業界は HOT になるのか?
スタンフォード大学の Open Networking Summit と OpenFlow
Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる

 

Twitter が提供する、Hadoop ライクな OSS とは?

Posted in .Selected, Big Data, Hadoop, Twitter by Agile Cat on August 9, 2011

Twitter to open source Hadoop-like tool
By
Stacey Higginbotham Aug. 4, 2011
http://gigaom.com/cloud/twitter-to-open-source-hadoop-like-tool/

_ Gigaom

Attention webscale aficionados, Twitter says it is planning to open source Storm, its Hadoop-like real-time data processing tool. In a blog post Thursday, the microblogging network said it plans to release the Storm code on Sept. 19 at the Strange Loop event in St. Louis, Mo.

Webs Scale マニアよ注意せよ – Twitter は、Hadoop ライクなリアルタイム・データ・プロセシング・ツールに関して、オープンソースの嵐を巻き起こそうと計画しているらしい。 木曜日(8/4)のブログポストで、このマイクロ・ブログ・カンパニーは、9月19日に St. Louis, Mo で開催される Strange Loop というイベントで、Storm のコードを公表する計画を練っていると発言した。  

imageThe question is — does the world need another real-time data processing tool? After all there are many tools like HStreaming (using Hadoop), the open source S4 and StreamBase, but the overall analytics market (if you can call it a market) is already fragmented. The Storm code comes from Twitter’s acquisition of BackType last month and seems to be an effort to get folks comfortable parsing data on Twitter.

そこでの疑問は以下のとおりである ー 世界は、もう 1つのリアルタイム・データ・プロセシング・ツールを必要とするか? 結局のところ、オープンソースである S4StreamBase といった、数多くの HStreaming(Hadoop を利用)ツールがあが、分析のための全体的なマーケットは(単にマーケットと呼ぶなら)、すでに分裂している。 Storm のコードは、先月に Twitter が買収した BackType がベースとなり、また、同社におけるデータ解析を快適にするために、folk したものと思われる。

The post does an excellent job laying out use cases for Storm and hints at more to come. While the code can deal with distributed nodes and huge amounts of data a la Hadoop or Map Reduce, Storm handles jobs that are “infinite.” It’s not for a data processing job with an end point, it’s good for streams of data and continual processing. From the post by Nathan Marz:

そのポストは、Storm のユースケースを概説し、これから加えられる機能をほのめかすという意味で、良い仕事をしている。 そのコードは、Hadoop あるいは Map Reduce のように、分散ノードと大量データを取り扱いう。 そして、Storm が処理するのは、「無限」のジョブとなる。 それは、エンドポイントを用いたデータ・プロセシング・ジョブのためのものではなく、データ・ストリーミングと継続的な処理に適している。Nathan Marz によるポストは、以下のとおりである:

Here’s a recap of the three broad use cases for Storm:

  • Stream processing: Storm can be used to process a stream of new data and update databases in realtime. Unlike the standard approach of doing stream processing with a network of queues and workers, Storm is fault-tolerant and scalable.
  • Continuous computation: Storm can do a continuous query and stream the results to clients in realtime. An example is streaming trending topics on Twitter into browsers. The browsers will have a realtime view on what the trending topics are as they happen.
  • Distributed RPC: Storm can be used to parallelize an intense query on the fly. The idea is that your Storm topology is a distributed function that waits for invocation messages. When it receives an invocation, it computes the query and sends back the results. Examples of Distributed RPC are parallelizing search queries or doing set operations on large numbers of large sets.

広範囲におよぶ、Storm の 3つのユースケースを、以下に要約する:

  • Stream processing: Storm は、新規データのストリームを処理し、データベースをリアルタイムで更新するために使用できる。Qqueue と Worker のネットワークを用いてストリームを処理をする、従来からの標準的なアプローチとは異なり、Storm はフォールト・トレラントであり、また、スケーラブルである。
  • Continuous computation: Storm は継続的にクエリーを発行し、また、その結果をクライアントへ向けて、リアルタイムにストリーミングする。たとえば、Twitter のトレンディングなトピックを、ブラウザへ向けてストリーミングすることが可能だ。 対象となるブラウザは、それらのトレンディングなトピックが発生するたびに、リアルタイムなビューで参照することになる。
  • Distributed RPC: Storm は、高負荷なくエリーを、on the fly で並列化するために利用できる。 この発想により、Stormトポロジーは、呼出しメッセージを待つための分散的な機能になる。 呼び出しが受信されたとき、クエリーが処理され、その結果が返される。 Distributed RPC の例としては、検索クエリーの並列化、および、膨大なデータセットに対する設定オペレーションなどがあげられる。

_ TwitterBut wait! There’s more! At the end of the post we are assured that there’s more to Storm than the blog post has even defined, which we can learn more about next month at the Strange Loop event. From the post:

しかし、これで、すべてではない! さらに、多くの事柄がある! このブログポストの終わりには、そこに記載された以上の機能があるとされ、来月の Strange Loop イベントで、詳細を学ぶことが可能と約束されている。以下は、そのポストから:

I’ve only scratched the surface on Storm. The “stream” concept at the core of Storm can be taken so much further than what I’ve shown here — I didn’t talk about things like multi-streams, implicit streams, or direct groupings. I showed two of Storm’s main abstractions, spouts and bolts, but I didn’t talk about Storm’s third, and possibly most powerful abstraction, the “state spout”. I didn’t show how you do distributed RPC over Storm, and I didn’t discuss Storm’s awesome automated deploy that lets you create a Storm cluster on EC2 with just the click of a button.

私は、Storm の表層を語ったただけである。 Srtorm のコアにある「Stream」のコンセプトは、ここに記した以上のものである。 つまり、multi-streams および、implicit streams、direct groupings について、私は言及していない。 私は、Storm における主要な抽象概念である、spouts and bolts について説明したが、3番目の概念については話していない。 それは、おそらく最も強力な、state spout という抽象概念である。 また、Storm 上に分散 RPC を展開する方式や、ボタンをクリックするだけで EC2 上に Storm クラスタを作成する、素晴らしく自動化されたデプロイメントについても説明していない。

So for those anxious to test out a new method of crunching terabytes of real-time data on the fly, get thee to GitHub! And wait.

テラバイトのリアルタイム・データを on the fly で処理するための、この新しい方式を試したいなら、GitHub へ行け!そして、待て。

Related research and analysis from GigaOM Pro:

 

 

 

ーーーーー

このところ、Twitter のテクノロジーに、いくつかの変更と拡張が加えられているようです。 Facebook との棲み分けの時代から、Google+ との競合の時代へと、Twitter の環境は変化しています。 たいへんだろうけど、頑張って欲しいです。 ーーー __AC Stamp 2

ーーーーー

<関連>

Twitter における、Ruby から Java への回帰とは?
Twitter サーチを 3倍速にする新アーキテクチャとは? _1
Twitter サーチを 3倍速にする新アーキテクチャとは? _2
Twitter サーチを 3倍速にする新アーキテクチャとは? _3

 

 

Big Data を探せ! アメリカの 5つの具体的な事例とは?

Posted in .Selected, Big Data by Agile Cat on July 26, 2011

5 real-world uses of big data
By David Smith Jul. 17, 2011, 9:00am PT
http://gigaom.com/cloud/5-real-world-uses-of-big-data/

_ Gigaom

In the past year, big data has emerged as one of the most closely watched trends in IT. Organizations today are generating more data in a single day than that the entire Internet was generated as recently as 2000. The explosion of “big data”–much of it in complex and unstructured formats–has presented companies with a tremendous opportunity to leverage their data for better business insights through analytics.

これまでの1年間において、Big Data は IT トレンドの中で、最も注目を浴びるものの 1つとなった。今日において、各種の組織が生成している 1日あたりのデータの量は、2000年までのインターネット全体が生成そたものよりも多い。 Big Data の爆発は、つまり、複雑で構造を持たないデータの爆発は、それらを分析することで、ビジネスを有利に展開する大きなチャンスを、それぞれの企業に提供している。

Toy soldiers line up for battleWal-Mart was one of the early pioneers in this field, using predictive analytics to better identify customer preferences on a regional basis and stock their branch locations accordingly. It was an incredibly effective tactic that yielded strong ROI and allowed them to separate themselves from the retail pack. Other industries took notice of Wal-Mart’s tactics — and the success they gleaned from processing and analyzing their data — and began to employ the same tactics.

Wal-Mart は、この領域におけるパイオニアの 1社であり、それぞれの地域における顧客の好みを適切に識別し、それに応じて在庫を調整するために、予測と分析を用いている。 それは、強力な ROI をもたらす、きわめて有効な戦略であり、また、リテール・パックからの分離を実現した。そして、他の業種も Wal-Mart の戦略に、つまり自身のデータに関する処理と分析から枝葉を拾い集める方式に注目し、それと同じ戦略をを使い始めた。

While data analytics was once considered a competitive advantage, it’s increasingly being seen as a necessity for enterprises–to the point that those that aren’t employing some kind of analytics are seen to be at a competitive disadvantage. Driven by the rise of modern statistical languages like R, there’s been a surge in enterprises hiring data analysts–which has in turn given rise to the larger data science movement. Data is a huge asset for enterprises, and they’re beginning to treat it accordingly.

データ分析が競合におけるアドバンテージだと認識されると、エンタープライズにおける必要性が、ますます増大してくるようにみえる。 そして、何らかの分析手法を持たない企業は、競合において不利だと思われるところまで行き着いてしまう。 たとえば、R のような最新の統計言語の登場により、データ・アナリストを雇っている企業は業績を伸ばし、また、大規模データ・サイエンスへ向けて、順番に進路を転換していった。データは、エンタープライズにおける重要な資産となり、また、こうした動向により、大切にされ始めた。

For all the talk about the need to effectively analyze your data, though, there’s been relatively little written about how organizations are using data to achieve actionable results. With that in mind, here are five use cases involving analyses of large data sets that brought about valuable new insight:

しかし、それらのデータを効果的に分析する、すべてのニーズについて言及するにしても、その結果を具体的な行動に結びつけるための、組織的な運用に方式に関する著述は少ない。 それを前提として、価値のある最新の洞察をもたらすための、大規模データセットの分析に関連する、5つのユースケースを以下に紹介する:

  • NYU Ph.D. student conducts comprehensive analysis of Wikileaks data for greater insight into the Afghanistan conflict:Drew Conway is a Ph.D. student at New York University who also runs the popular, data-centric

    Zero Intelligence Agentsblog. Last year, he analyzed several terabytes worth of Wikileaks data to determine key trends around U.S. and coalition troop activity in Afghanistan. Conway used the R statistics language first to sort the overall flow of information in the five Afghanistan regions, categorized by type of activity (enemy, neutral, ally), and then to identify key patterns from the data. His findings gave credence to a number of popular theories on troop activity there–that there were seasonal spikes in conflict with the Taliban and most coalition activity stemmed from the “Ring Road” that surrounds the capitol, Kabul, to name a few. Through this work, Conway helped the public glean additional insight into the state of affairs for American troops in Afghanistan and the high degree of combat they experienced there.Drew Conway は New York University に Ph.D. 課程の学生であり、また、Zero Intelligence Agentsという、人気のデータ・セントリック・ブログを運営している。 昨年のことだが、彼は、Afghanistan における U.S. 関連のトレンドと、連合軍のアクティビティを判断するために、テラ・バイト相当の Wikileaks データを分析した。 Conway は、統計言語である R を用いて、Afghanistan の 5つの地域に関する情報フローをソートし、アクティビティの種類(敵対/中立/連合)でカテゴライズを行い、それらのデータに基づいき主要パターンを識別していった。 彼の調査結果は、その地域での軍事的アクティビティにおいて、支持を集めているセオリーに信用を与えた。 つまり、二三の例を挙げると、たとえば Taliban との衝突には顕著なピークが見られ、大半の軍事的アクティビティは、首都 Kabul を囲む「環状道路」から生じていることが分かった。 この作業を通じて Conway は、Afghanistan におけるアメリカ軍の情勢と、そこでの戦闘の戦闘体験を、高度なレベルで分析することで、洞察の収集に寄与した。

  • International non-profit organization uses data science to confirm Guatemalan genocide: 

    Benetechis a non-profit organization that has been contracted by the likes of Amnesty International and Human Rights Watch to address controversial geopolitical issues through data science. Several years ago, they were contracted to analyze a massive trove of secret files from Guatemala’s National Police that were discovered in an abandoned munitions depot. The documents, of which there were over 80 million, detailed state-sanctioned arrests and disappearances that occurred during the country’s decades-long civil conflict that occurred between 1960 and 1996. There had long been whispers of a genocide against the country’s Mayan population during that period, but no hard evidence had previously emerged to verify these claims. Benetech’s scientists set up a random sample of the data to analyze its content for details on missing victims from the decades-long conflict. After exhaustive analysis, Benetech was able to come to the grim conclusion that genocide had in fact occurred in Guatemala. In the process, they were able to give closure to grieving relatives that had wondered about the fate of their loved ones for decades.Benetechは、データ・サイエンスを介して、紛争における地政学的な問題に対処するために、Amnesty International や Human Rights Watch などと連携する NPO である。 そして、数年前に、Guatemala の National Police が軍用貯蔵庫で見つけた、大量の機密ファイルについて、その分析を請け負った。 8000万枚以上ものドキュメントは、1960年~1996年に起こった長い紛争における、同国の逮捕者と行方不明者を詳述している。 そして、その期間において同国に居住するマヤ族に対して、大量虐殺が行われているというウワサがあったが、そうした申し立てを検証するための、確かな証拠は見つかっていなかった。 Benetech の科学者たちは、この数十年にもおよぶ長い紛争において、行方不明となった犠牲者の詳細を分析するために、そのデータからランダムにサンプリングしていく準備を整えた。 そして、徹底的な分析の後に、Guatemala において現実に大量虐殺が起こっていたという厳しい結論に、 Benetech は到達することになった。 そのプロセスにおいて、愛する家族の行方について、何十年にもわたり不思議に思い、また、深く悲しんでいる人々に、現実を伝えることができた。

  • imageStatistician develops innovative metrics tracking for baseball players, gains widespread recognition and a job with the Boston Red Sox:Bill James (he of Moneyball fame) is a well-known figure in the world of both baseball and statistics at this point, but that has not always been the case. James, a classically trained statistician and avid baseball fan, began publishing research in the early 1970s that took a more quantitative approach to analyzing the performance of baseball players. His work focused on providing specific metrics that could empirically support or refute specific claims about players, be it the amount of runs they contributed to in a given season or how their defensive abilities contributed to or detracted from a team’s success. James’ approach became known as sabermetrics and has since expanded to incorporate a wide range of quantitative analyses for measuring baseball metrics. Over time, sabermetrics has gained wide recognition in baseball to the point that it’s now employed by all 30 Major League Baseball teams for tracking player metrics. In 2003, James was named Senior Advisor of Baseball Operations by the Boston Red Sox, a position he holds to this day.

    Bill James(Moneyball で有名)は、いまでは野球と統計の世界で署名な人物となったが、それが容易な道のりだっというわけではない。 James は、従来からの統計学を学び、野球を愛していた。そして、野球選手の成績を分析するための、量的なアプローチを用いて、1970年代の初めに研究成果を公表し始めた。 彼の作業は、基準の提供にフォーカスするものであった。それによりプレーヤーに対する評価を見直し、また、所定のシーズンにおける、走力と守備力に関する、チームへの貢献度を測定していった。 James のアプローチは、sabermetrics(野球に関するコンピュータ分析) として知られるようになり、また、野球に関するデータの測定において、広範囲におよぶ定量分析を取り込むために拡張されてきた。 そして、長い期間を経て、プレーヤー立ちの力量を測るために、Major League Baseball の 30チームが作用するにいたるまで、この sabermetrics は野球界で広く認識されるようになった。 2003 年に James は、Boston Red Sox から  Senior Advisor of Baseball Operations と命名され、今日に至るまで、そのポジションを維持している。

  • U.S. government uses R to coordinate disaster response to BP oil spill:In the early days of last year’s Deepwater Horizon disaster, the flow of oil rate from the spill was of primary concern; estimating it accurately was key to coordinating the scale and scope of the U.S. government’s response to the emergency. The National Institute of Science and Technology (NIST) was charged with making sense of the varying estimates that existed from both BP and independent third-parties. To do so, NIST used the open source

    R languageto run an uncertainty analysis that harmonized the estimates from various sources to come up with actionable intelligence around which disaster response efforts could be coordinated.昨年の Deepwater Horizon 災害の初期において、その採油口から溢れる、石油の総量が関心事となっていた。つまり、それを正確に推測することが、アメリカ政府によるスケールとスコープの調整において、きわめて重要なポイントになった。 National Institute of Science and Technology(NIST)には、BP とサード・パーティーに存在する多様な見積もりを、理解するというプレッシャーがかかった。 それに対応するために、NIST はオープンソース R languageを用いて、各種のソースからの見積もりを調和させるという、不確実性の解析を行った。 そして、この大惨事への対処法を調整して、実施が可能なプランをもたらしていった。

  • Medical diagnostics company analyzes millions of lines of data to develop first non-intrusive test for predicting coronary artery disease:CardioDX is a relatively small, Palo Alto, Calif.-based company that performs genomic research. One of their major initiatives over the past several years was developing a predictive test that could identify coronary artery disease in its most nascent stages. To do so, researchers at the company

    analyzed over 100 million gene samples to ultimately identify the 23 primary predictive genes for coronary artery disease. The resulting test, known as the “Corus CAD Test,” was recognized as on of the “Top Ten Medical Breakthroughs of 2010” by TIME Magazine.CardioDX はゲノム解析を行う、Palo Alto, Calif. ベースの小じんまりとした企業である。 これまでの数年における、同社の主要な方向性の 1つとして、冠動脈疾患を早期に識別することが可能な、予測型テストの開発がある。 それを実現するために、同社の研究者たちは 1億個以上の遺伝子サンプルを分析し、最終的に、冠動脈疾患をもたらす 23種類の遺伝子を突き止めた。 この、「Corus CAD Test」と呼ばれるテスト結果は、TIME Magazine の “Top Ten Medical Breakthroughs of 2010”  により、広く知られることになった。

These are but a few brief examples of the exciting work that’s being undertaken in the rapidly growing discipline of data science. More and more, data analysis is being relied on to provide context for critical business decisions, a trend that promises to increase as data sets grow larger and more complex and scientists continue to push the limits of statistical innovation.

これらは、数少ない事例であるが、データ・サイエンスにおける急成長している分野で、すでに着手されているエキサイティングな作業である。 クリティカルなビジネスの判断では、その背景の提供に依存する、さらに多くのデータが分析されている。そして、データセットが成長し複雑になるというトレンドに対応するために、統計のイノベーションという領域における、科学者たちによる闘いが続いている。

David Smith is vice president of community at Revolution Analytics, a company founded in 2007 to foster R analytics by creating programs to make it easier for data scientists to analyze large amounts of data.

Related research and analysis from GigaOM Pro:

 

 

 

ーーーーー

日本でクラウドを展開するために必要なビジネス・モデルは、やはり Big Data を必要とするのでしょう。 それにしても、野球の話は面白いですね :) ーーー __AC Stamp 2

ーーーーー

<関連>

Google IO 2011 での、Big Data 関連ビデオをピックアップ!
Apple iCloud – 分散ストレージと同期により、クラウドの常識を打ち破る
Facebook は正攻法で、Billion 単位のメッセージを処理していく
Twitter サーチを 3倍速にする新アーキテクチャとは? _1
クラウド・コンピューティングのビジネス規模を Infographic で見る

Microsoft Research は Azure のために、Dryad 以外の Hadoop 対抗をリリースする

Posted in Big Data, Hadoop, Microsoft by Agile Cat on July 20, 2011

Microsoft Research Releases Another Hadoop Alternative for Azure
By
Klint Finley / July 18, 2011 1:40 PM
http://www.readwriteweb.com/cloud/2011/07/mapreduce-for-microsoft-azure.php

_ Read Write

Today Microsoft Research announced the availability of a free technology preview of Project Daytona MapReduce Runtime for Windows Azure. Using a set of tools for working with big data based on Google’s MapReduce paper, it provides an alternative to Apache Hadoop.

今日のことだが(7/18)、Microsoft Research は Project Daytona MapReduce Runtime for Windows Azure に関する、無償のテクノロジー・プレビューの提供についてアナウンスした。つまり、Google MapReduce ペーパーをベースとした、Big Data を用いる作業のためのツールセットとして、Apache Hadoop に代わる選択肢を提供することになる。

clip_image001Daytona was created by the eXtreme Computing Group at Microsoft Research. It’s designed to help scientists take advantage of Azure for working with large, unstructured data sets. Daytona is also being used to power a data-analytics-as-a-service offering the team calls Excel DataScope.

この Daytona は、Microsoft Research の eXtreme Computing Group により作成された。 それは、大規模で構造化されていないデータ・セットに対して、Azure の先進性を活用する科学者を、支援するようにデザインされている。 さらに Daytona は、このチームが Excel DataScope と呼んでいる、data-analytics-as-a-service に対してパワーを提供するためにも用いられる。

Big Data Made Easy?

The team’s goal was to make Daytona easy to use. Roger Barga, an architect in the eXtreme Computing Group, was quoted saying:

このチームのゴールは、Daytona を使い易くすることにある。 以下は、この eXtreme Computing Group のアーキテクトである、Roger Barga の発言からの引用である:

"’Daytona’ has a very simple, easy-to-use programming interface for developers to write machine-learning and data-analytics algorithms. They don’t have to know too much about distributed computing or how they’re going to spread the computation out, and they don’t need to know the specifics of Windows Azure."

「 Daytona は、machine-learning とdata-analytics のアルゴリズムを記述する開発者のための、シンプルで使い易いプログラミング・インターフェイスを提供する。 そのため、開発者たちは、分配コンピューティングについて、また、計算能力を分散させる方式について、深い理解を必要としない。 さらには、Windows Azure の詳細すら知る必要がなくなる」

To accomplish this difficult goal (MapReduce is not known to be easy) Microsoft Research is including a set of example algorithms and other sample code along with a step-by-step guide for creating new algorithms.

この困難なゴールを達成するために(MapReduce は容易ではないと認識されている)、Microsoft Research はサンプル・アルゴリズムのセットを取り込みと、新しいアルゴリズム作成ための step-by-step ガイドを伴う、サンプルコードの取り込みを進めている。

Data Analytics as a Service

To further simplify the process of working with big data, the Daytona team has built an Azure-based analytics service called Excel DataScope, which enables developers to work with big data models using an Excel-like interface. According to the project site, DataScope allows the following:

Big Data を用いる作業のプロセスを、さらに単純化するために、Excel DataScope と呼ばれる Azure ベースの分析サービスを、この Daytona チームは構築している。それによりデベロッパーたちは、Excel-like なインターフェイスを用いて、Big Data モデルを取り扱うことができる。 このプロジェクト・サイトによると、 以下の項目が Datascope で実現される:

  • Users can upload Excel spreadsheets to the cloud, along with metadata to facilitate discovery, or search for and download spreadsheets of interest.
  • Users can sample from extremely large data sets in the cloud and extract a subset of the data into Excel for inspection and manipulation.
  • An extensible library of data analytics and machine learning algorithms implemented on Windows Azure allows Excel users to extract insight from their data.
  • Users can select an analysis technique or model from our Excel DataScope research ribbon and request remote processing. Our runtime service in Windows Azure will scale out the processing, by using possibly hundreds of CPU cores to perform the analysis.
  • Users can select a local application for remote execution in the cloud against cloud scale data with a few mouse clicks, effectively allowing them to move the compute to the data.
  • We can create visualizations of the analysis output and we provide the users with an application to analyze the results, pivoting on select attributes.

  • ユーザーはクラウドへ向けて、Excel スプレッドシートをアップロードできる。そこには、発見や検索を容易にするためのメタデータが含まれ、また、重要なスプレッドシートをダウンロードすることになる。
  • ユーザーはクラウドにおいて、きわめて大規模なデータセットのサンプルを取得し、検証と操作のためのサブセット・データを、Excel へ向けて抽出ができる。
  • Windows Azure に実装された、data analytics と machine learning アルゴリズムのための拡張可能なライブラリーにより、Excel ユーザーは、それらのデータから洞察を抽出できる。
  • ユーザーは、私たちが提供する Excel Datascope のリサーチ・リボンから、解析のためのテクニックやモデルを選択し、また、リモート処理をリクエストできる。Windows Azure のランタイム・サービスは分析のために、数100 個にいたるかも知れないCPU コアを用いて、そのための処理をスケールアウトしていく。
  • ユーザーは、リモート処理のためのおローカル・アプリケーションを、クラウドで選択できる。それにより、クラウド・スケール・データを、数回のマウスクリックで処理することが可能となり、データに対する計算処理が効果的に達成される。
  • 分析アウトプットに対する、ビジュアライゼーションが可能である。そして、結果を解析するためのアプリケーションを、ユーザーに提供することで、選択された属性の pivoting を実現する。

This reminds me a bit of Google’s integration between BigQuery and Google Spreadsheets, but Excel DataScope sounds much more powerful.

それは、BigQuery と Google Spreadsheets 結ぶ、Google のインテグレーションを思い出させるが、Excel DataScope の方がずっとパワフルに思える。

We’ve discussed data as a service as a future market for Microsoft previously.

なお、私たちは以前に、Microsoft における将来のマーケットとして、data as a service を解説している。

Microsoft’s Other Hadoop Alternative

big-hadoop-logoMicrosoft also recently released the second beta of its other Hadoop alternative LINQ to HPC, formerly known as Dryad. LINQ/Dryad have been used for Bing for some time, but not the tools are available to users of Microsoft Windows HPC Server 2008 clusters.

Microsoft は以前から、Dryad として知られる LINQ to HPC を、Hadoop に代わる選択肢として進めており、最近になって 2番目のベータを発表している。 はしばらくの間、LINQ/Dryad は Bing で使用されたが、Microsoft Windows HPC Server 2008 Cluster のユーザーが、利用可能というわけではない。

Instead of using MapReduce algorithms, LINQ to HPC enables developers to use Visual Studio to create analytics applications for big, unstructured data sets on HPC Server. It also integrates with several other Microsoft products such as SQL Server 2008, SQL Azure, SQL Server Reporting Services, SQL Server Analysis Services, PowerPivot, and Excel.

MapReduce アルゴリズムの利用に代えて、LINQ to HPC は、デベロッパーによる Visual Studio の使用を実現している。 それにより、HPC Server 上の、大規模・非構造データセットのための、分析アプリケーションが開発される。 そして、さらに、SQL Server 2008 および、SQL Azure、SQL Server Reporting Services、SQL Server Analysis Services、PowerPivot、Excel といった、Microsoft プロダクツとの統合も可能だ。

Microsoft also offers Windows Azure Table Storage, which is similar to Google’s BigTable or Hadoop’s data store Apache HBase.

さらに Microsoft は、 Google の BigTable や、Hadoop のデータストアである Apache HBase に相当するものとして、Windows Azure Table Storage を提供している。

More Big Data Initiatives from Microsoft

We’ve looked previously at Probase and Trinity, two related big data projects at Microsoft Research. Trinity is a graph database, and Probase is a machine learning platform/knowledge base.

私たちは以前に、Probase と Trinity という、2 つの Big Data 関連プロジェクトを、Microsoft Research で見ている。 Trinity はグラフ・データベースであり、Probase は machine learning platform/knowledge base である。

We also covered Project Barcelona, an enterprise search system that will compete with Apache Solr.

私たちは、Apache Solr と競合するエンタープライズ・サーチ・システムとして、Project Barcelona もカバーしている。

See Also

ーーーーー

先日も、Microsoft Research が、Barrelfish というオープンソース OS(以下のリンク) に取り組んでいることを紹介しましたが、こちらの Project Daytona のページを見ても、オープンソース に関する表記はありませんでした。 ただ、いずれにしても、Microsoft Research  の動きが活発になっているようで、とても歓迎できる状況だと言えます。 ーーー __AC Stamp 2

ーーーーー

<関連>

Microsoft Research が、オープンソースの OS に取り組んでいる

%d bloggers like this: