Agile Cat — in the cloud

Big Data の調査:Google の DataFlow は、MapReduce の正当な継承者になり得るのか?

Posted in Big Data, Google, Hadoop, MapReduce, On Monday by Agile Cat on July 28, 2014

Data Cloud/Big Data: Google Introduces DataFlow as Successor to MapReduce
http://wp.me/pwo1E-7HE

By Dick Weisinger – July 25, 2014
http://formtek.com/blog/data-cloudbig-data-google-introduces-dataflow-as-successor-to-mapreduce/

_ formtek

Do you feel left behind when it comes to technologies like Hadoop and MapReduce?  The great thing about the rapid speed that technology is changing and obsolescing is that if you miss one trend it’s not long before it’s been superseded by something else.  That lets you leapfrog directly into the newer technology without having wasted time and resources on the older technology.  Although you’ve got to jump in sometime!

Hadoop や MapReduce といったテクノロジーの話になると、時代に取り残されていると感じるだろうか? そして、それらのテクノロジーにおける素晴らしいスピードは、それ自身を変化させ、また、旧式化させていく。 したがって、何らかのトレンドを見逃したとしても、それほど時間を置くことなく、それらに取って代わるものを見出すことができる。 つまり、古いテクノロジーに時間と資源を浪費することなく、新しいテクノロジーへ向けて、ダイレクトにジャンプすることが可能なのだ。 どんなタイミングでジャンプするのかという、課題は残されるのだけどね!

 Google announced in June that they’ve long ago dropped MapReduce technologies like Hadoop.  And in fact they’re even going to open up their ‘better way’ of analyzing Big Data sets to the public.  It’s part of the Google Cloud Platform.  And the components of the new Google technology called DataFlow have cool names like Flume and MillWheel.

Google が 6月に発表したのは、ずっと以前に MapReduce(Hadoop の原型)テクノロジーを廃止していたことである。実際のところ、Big Data の分析を開かれたものにするために、Google としての Better Way に取り組もうとしているのだ。それは、Google Cloud Platform の一部も構成する。この、Google における新しいテクノロジー・コンポーネントは、Flume MillWheel のようにクールな、DataFlow という名前を与えられている。

The limitation of MapReduce strategies are that they are run as batch jobs.  To use MapReduce and standard Hadoop, all the data needs to already exist and to have been collected before the job begins.

MapReduce ストラテジーにおける制約は、バッチ・ジョブとして実行される点にある。MapReduce や標準的な Hadoop を使用するには、そのジョブの開始する前に、存在すべき全データが揃っていなくてはならない。

Greg DeMichillie, Director of Product Management, wrote that ”a decade ago, Google invented MapReduce to process massive data sets using distributed computing.  Since then, more devices and information require more capable analytics pipelines—though they are difficult to create and maintain.  Cloud Dataflow makes it easy for you to get actionable insights from your data while lowering operational costs without the hassles of deploying, maintaining or scaling infrastructure. You can use Cloud Dataflow for use cases like ETL, batch data processing and streaming analytics, and it will automatically optimize, deploy and manage the code and resources required.”

Director of Product Management である Greg DeMichillie は、「 Google は 10年前に発明した MapReduce は、分散コンピューティングを用いて、大規模なデータセットを処理するためのものである。それ以来、より高機能な分析パイプラインが、数多くのデバイスと情報のために必要とされてきたが、それらを開発/維持していくのは困難なことであった。Cloud Dataflow を用いれば、それらのデータから、実用的な洞察を容易に得られるようになる。 その一方で、インフラストラクチャのディプロイ/メンテナンス/スケーリングに煩わされることもなく、運用コストを削減できる。この Cloud Dataflow は、ETL/バッチ・データ処理/ストリーミング分析のようなユースケースに対して、用いることが可能になっている。そして、必要とされるコードとリソースを、自動的に最適化し、展開し、管理していく」と述べている

Brian Goldfarb, Google Cloud Platform head of marketing, said that with Big Data that “the program models are different. The technologies are different. It requires developers to learn a lot and manage a lot to make it happen.  It [Google DataFlow] is a fully managed service that lets you create data pipelines for ingesting, transforming and analyzing arbitrary amounts of data in both batch or streaming mode, using the same programming model.”

Google Cloud Platform の Head of Marketing である Brian Goldfarb は、Big Data との対比について、「 プログラム·モデルが異なり、また、テクノロジーも異なる。それを実現するためには、デベロッパーが必要とするのは、より多くのことを学び、より多くのことを管理することである。Google DataFlow は、バッチとストリーミングのモードにおいて、同じプログラミング・モデルを用いて、大量のデータを洞察/変換/分析する、データ・パイプラインを作成するための完全なマネージド・サービスである」と発言している

Urs Hölzle, senior vice president of technical infrastructure Google, said that ”Cloud Dataflow is the result of over a decade of experience in analytics.  It will run faster and scale better than pretty much any other system out there.”

Google の Senior VP of Technical Infrastructure である Urs Hölzle は、「 Cloud Dataflow は、分析における、私たちの 10年以上にもおよぶ経験から生まれたものである。 それは、他のシステムと比べて、高速で動作し、スケーリングにも優れている」と、述べている

ーーーーー

Todd Hoff さんの、「Google Instant では、リアルタイム検索のために MapReduce を排除!」というポストによると、Google が MapReduce を止めたのは 2010年ということになります。 それから、すでに、4年が経っているのですね。 Hoff さんは、「 Google の 3つの世代を振り返る – Batch, Warehouse, Instant 」という素晴らしい記事も書いています。 どちらも、読み応え 十分の記事ですが、よろしければ ど〜ぞ!

ーーーーー

<関連>

Cloud の調査:マイグレーションの期間は終わり、クラウド・ネイティブ・アプリの時代が始まる
SaaS and ECM の調査:クラウドは何も失わず、メリットだけを提供する
Cloud の調査: Docker によるアプリのパッケージ化は、大きな実績を残し始めている!
Cloud の調査: すべては Hybrid へと集約されていくのか?
Big Data の調査:未来においても Hadoop の支配は続くのか?

Netflix の業績をインフォグラフで見る

Posted in Businesses, Entertainment, Netflix by Agile Cat on August 15, 2011

Infographic: Netflix by the numbers
By
Janko Roettgers Aug. 9, 2011
http://gigaom.com/video/netflix-by-the-numbers/

_ Gigaom

When it comes to making money with online video, there is Netflix, and then there’s everyone else. The company has managed to grow its streaming video service from an added feature to its main business, and it’s utilized its footprint on more than 450 devices to amass more subscribers than even Comcast, the nation’s biggest cable TV provider. Check out our infographic for a look at the money, the technology and the catalog behind the Netflix empire:

オンライン・ビデオの世界で、効率良く収益を上げる企業としては Netflix の存在があり、そこに他社が続く構造となっている。 同社はストリーミング・ビデオ・サービスの成長に関して、その機能の追加から、メインとなるビジネスまでを管理している。 そして、米国最大のケーブル・テレビ・プロバイダである Comcast より、大勢の加入者を取り込むために、450 種類以上のデバイスに対応している。この Netflix 帝国の背後に隠された、その収益と、テクノロジー、そしてカタログを、インフォグラフで確認していこう:

Netflix recently ruffled some feathers with its plan to split its DVD-by-mail and online video efforts into two separate subscription plans, effectively raising the rates up to 60 percent for some users. The company now expects growth to slow down in the coming quarter as a result.

最近になって Netflix は、その DVD-by-Mail と Online Video を、2つのサブスクリプション・プランに分割するために、ちょっとした動揺をユーザーに与えたが、60% にいたるユーザー数を、効率良く引き止めることになった。 その結果として、この四半期については、同社の成長率はスロー・ダウンすると予測される。

What do you think? Will Netflix continue to grow its position of online video domination, or are we going to see the company stumble as a result of the price hike? Let us know in the comments!

あなたは、どう思うだろう? Netflix は、オンライン・ビデオにおける支配的なポジションを継続するだろうか? あるいは、価格の引き上げにより、同社が停滞するような状況を、私たちは見るのだろうか? コメントがあったら、ぜひ、書き込んで欲しい!

Related research and analysis from GigaOM Pro:

ーーーーー

アメリカで CATV といえば、まっさきに Comcast の存在が浮かび上がってきますが、その Comcast をジワジワと追い詰め、抜きさってしまった Netflix です。 もちろん、従来型の CATV と インターネット・ストリーミングでは業態が異なりますので、単に企業間の比較というより、業界の比較として捉える方のが正しいのかもしれません。先日は、サブスクライブの方針を修正したとかで、ちょっと前に 大騒ぎしていましたが、それも、長期的な戦略を見通した上でのことなのでしょう。 一時的にユーザー数が減っても、ぜんぜん構わないという、収縮自在のクラウド企業ならではの、大胆な戦略と評価できますね。 ーーー __AC Stamp 2

ーーーーー

<関連>

ストリーミングとクラウドを使いこなす Netflix とは?
Netflix の API は、200 億リクエスト/月 を処理する
Real World NoSQL シリーズ – Netflix における Amazon SimpleDB

Facebook Music が、やってくる!

Posted in Entertainment, Facebook by Agile Cat on June 27, 2011

Facebook music is coming!
June 21, 2011 2:06 PM  -  By Ysolt Usigan
http://www.cbsnews.com/8301-501465_162-20073004-501465.html

image

(CBS) – Facebook is gearing up to launch a music area with Spotify, a European digital music service, and perhaps other music-streaming programs, according to technology blog GigaOM.

(CBS) – テクノロジー・ブログである GigaOM によると、Facebook は Spotify(ヨーロッパのデジタル音楽サービス) および、他のストリーミング・プログラムと共に、ミュージック領域への進出しようと準備を整えている。

Does this mean we can put mood music on our profiles (like we used to do on Myspace)? Can we, once again, have the bragging rights for being the first fans of that once unknown artist that has since hit it big?

それにより、私たちのプロファイルに、好きな音楽をのせられるのだろうか(Myspace のように)? そして、まだ無名のアーティストの、最初のファンとして誇らしげに振舞うことが、もう一度できるのだろうか?

If the streaming service is integrated on Facebook, music will be shared and discovered, growing our music repertoires, not to mention our cool factor. So our fingers are crossed!

もし、そのようなストリーミング・サービスが Facebook 上に統合されるなら、前述のようなクールな振舞いは言うまでもなく、音楽の発見と共有が進み、そのレパートリーを増やしてくれるだろう。 したがって、私たちは  Good Luck(Crossed fingers)と言いたいのだ!

imageGigaOm reported, this means users can click on a music dashboard where they’ll see music notifications. The dashboard will have information, such as what your friends have listened to, the songs and bands they recommend, and the top songs and albums among your friends – all with cover art.

GigaOm のレポートによると、Music Notifications を見つけ出すためのダッシュボードを、ユーザーはクリックすることになる。 そのダッシュボードは、あなたの友人たちが、その時に聴いている楽曲や、薦めてくれるバンド、そして、何度も繰り返して聴くアルバムなどを、情報として提供する。

There’s also supposed to be a playback/pause button that will be added to your Facebook screen (like Facebook Connect, which users currently use to chat with friends). This button will allow you to play a track after discovery right on Facebook.

さらに、Playback/Pause ボタンも、Facebook スクリーンに加えられるはずだ(現時点でチャットに用いられるFacebook Connect のような感じ)。 このボタンにより、Facebook 上で見つけたトラックを、ただちに再生できるようになるだろう。

Sounds like a pretty neat feature to us – but then again, if you’re embarrassed by some of your music choices (like if you’re listening to Hall & Oates in secret – no judgment here), be careful what you play.

それらは、私たちにとって適切な機能だと思えるが、ひとこと注意を促すなら、あなたの聴いている音楽により(たとえば Hall & Oates が良いの悪いのとかは、ここでは判断しない)、ちょっとバツの悪い思いをする可能性があるということだ。まぁ、Facebook で聴く音楽には、注意していきましょう。

ーーーーー

すると、なんですか、あの Chat がスルーっと登場するような感じで、小さなウィンドウが出てきて、◯◯さんや、☓☓さんが聴いている音楽が分かるのですね。 そして、クリックすると、それが聴けてしまう。 たしかに、面白そうで、便利そうな機能ですが、ちょっと余所ゆきの音楽になっていますかもしれませんね。 まさに、SOMETHING WICKED THIS WAY COMES ですね。 それと、このブログは CBS からのものなのですが、そこで参照されるとは、Gigaom もメジャーになってきました :) ーーー __AC Stamp 2

ーーーーー

<関連>

いったい誰が、クラウド版の iTunes を作れるのか? いや、作るべきなのか?
Facebook は Web のセントラル・ハブとなり、音楽とビデオを制覇する
Apple iCloud が挑むカベ – ヨーロッパを席巻する Spotify とは?
Facebook が目指す Web ソーシャル・エンターテイメント OS とは?
クラウド化される Music Streaming は、どのように変化するのだろうか?
♫ Smooth Jazz を Winamp と Android で ・・・
Android で音楽を楽しむには?

ストリーミングとクラウドを使いこなす Netflix とは?

Posted in Amazon, Entertainment, Netflix by Agile Cat on May 7, 2011

Netflix CEO: We Almost Didn’t Do the Starz Deal
By
Janko Roettgers May. 5, 2011, 6:16pm PT
http://gigaom.com/video/netflix-reed-hastings-starz/

_ Gigaom

Netflix CEO Reed Hastings told Charlie Rose this week that his company almost didn’t close its now-infamous deal with Starz three years ago. But the premium cable ended up licensing its entire catalog of movies to Netflix in 2008, giving the streaming service access to movies from Sony and Disney, as well as some original TV shows.

Netflix CEO である Reed Hastings は、今週に行われた Charlie Rose のインタビューにおいて、いまだに評判の悪い 3年前の Starz との取引には何の裏取引もなかったと話した。そして、結局のところ、そのプレミアムなケーブル TV は 2008 年になって、すべての映画カタログを Netflix にライセンスすることになり、Sony と Disney から映画だけではなく、いくつかの オリジナル TV ショーも含む、ストリーミング・サービスへのアクセスが提供された。

Netflix reportedly paid just $30 million for these rights. The deal has been a point of contention in Hollywood ever since, with some executives saying that Netflix should have paid a lot more. However, that’s not how Hastings saw it in 2008: “At the time it was so expensive that we almost didn’t do the deal at the last minute,” he told Rose.

伝えられるところによると、それらの権利に対して Netflix は、$30 million だけを支払っている。この取引は、より多額の費用を Netflix は支払うべきだったと、何人かの経営者に言わせるほどの、Hollywood における争点を提供し続けている。 しかし、それは 2008 年において、Hastings が見た状況とは異なる。 つまり、「その時は、きわめて高価なものであったので、我々は直前になるまで、なにもしなかった」と、彼が Rose に明かしている。

The company’s deal with Starz is up for renewal early next year, and Hastings acknowledged that his company will have to pay much more this time around. “That renewal, if it happens, will be a lot more expensive,” he said.

Starz との取引は、来年早々に更新されるが、そのときの条件は厳しくなると、Hastings は認めている。 そして、「次の契約更新時には、ずっと多くの費用がかかるだろう」と、発言している。

Hastings also shared a few observations about Amazon’s recent cloud outage in the interview, saying that it was actually “a validation of the cloud” because Amazon’s architecture allowed Netflix to simply move its AWS-hosted assets to a different data center. And he had kind words for all of his competitors, including Google’s YouTube, which he credited for inspiring him to add streaming to Netflix:

なお、このインタビューでは、最近に起こった、Amazon クラウドの障害についても、いくつかの考えを共有することができた。そのときに Hastings は、Amazon アーキテクチャにより、Netflix は AWS にホストされた資産を、他のデータセンターに移動することが可能であったと指摘し、それを「クラウドの確証」と表現した。そして彼は、Google の YouTube も含めて、すべてのコンペティターへの謝意を述べた。なぜなら、Netflix にストリーミングを加える発想をもたらし、また、その成功を確信させてくれたからだ。

“Really, YouTube showed the way. When we first used YouTube in 2005, it was shocking. You could click and watch, it was like television – except, you could decide. It was instant…. We realized: Streaming is finally here. The Internet is ready.”

「現実に、YouTube は、その発想を示してくれた。 2005年に、初めて YouTube を使ったとき、それはショッキングなものであった。 クリックするだけで、TV のように動画を見れたが、観るものを自分で選べる点が違った。
しかも、ただちに観れた・・・」

Check out the entire interview here.

Related content from GigaOM Pro (subscription req’d):

ーーーーー

Starz というのは、日本でいえばスカパーみたいな会社なのでしょうね。 Netflix って、ビジネスも上手くいっているみたいですし、NoSQL を適切に使い、また、パブリック・クラウドを正しく使ってるようですね。 先日の AWS ダウンの際にも、この Netflix は、まったく問題なく動いていたとのことです。 中には、AWS のストレージ品質に言及する人もいましたが、Agile_Cat 的には Netflix の発想の方がスマートでイイですね! ーーー __AC Stamp 2

ーーーーー

<関連>

Netflix の API は、200 億リクエスト/月 を処理する
Real World NoSQL シリーズ – Netflix における Amazon SimpleDB
Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる_1
Amazon AWS の障害を総括すると、クラウドの勝利が見えてくる_2

 

 

 

クラウド化される Music Streaming は、どのように変化するのだろうか?

Posted in Entertainment, Miscs, Mobile by Agile Cat on March 27, 2011

The Future of Cloud-Based Music Streaming
March 14th, 2011 : Olafur Ingthorsson
http://www.datacenterknowledge.com/archives/2011/03/14/the-future-of-cloud-based-music-streaming/

_ DC Knowledge

Cloud computing is gradually revolutionizing the music industry and the way digital music is being consumed. Instead of buying and downloading (digital download) songs over the internet, consumers are accessing to them via the cloud in the form of on-demand streaming services. This also brings  new services that helps users to create playlists and receive recommendations for songs and bands according to their music interests.

クラウド・コンピューティングにより、音楽業界とデジタル音楽の消費形態に、静かな革命が始まりつつある。 インターネットを介した、音楽の購入やダウンロードに換えて、オン・デマンドのストリーミング・サービスの形態を持つクラウドに、消費者たちはアクセスする。 それにより、消費者たちの好みに応じて、ユーザー自身によるプレイリストの作成や、楽曲と演奏者に関するリコメンデーションといった、新しいサービスが提供される。


Cloud-based music services

Due to its enormous penetration and coverage, the mobile phone has become the device of choice for enabling cloud-based music services. As the leader in the traditional music download industry, Apple is currently preparing its iTunes music store to become a streaming service, perhaps to counteract its stalling music download sales figures. To separate itself from several other competing current streaming music services like Sony’s Music Unlimited, Pandora, Rhapsodyand Spotify, Apple is focusing on providing higher-quality music for both its download and future streaming services.Google obviously has its own plans for digital music streaming for Android handsets and has been rumored to be working on a cloud-based digital music service, although it has not yet announced the relevant app or service.  It’s possible that the Google music service will be integrated with Android Market, similar to the recent book tab. In fact though, hackers have already found a way to implement a streaming music service by inserting the music player from Android version 3.0, known as the Honeycomb, into adapted Android smartphones.

音楽ダウンロード業界における従来からのリーダーとして、 Apple は iTunes ミュージック・ストアをストリーミング・サービスに切り替えるために準備をしているところであり、それにより、行き詰まってきた音楽ダウンロード・ビジネスを打開するものと思われる。 そして、Sony の Music Unlimited や、PandoraRhapsodySpotify などの、いくつかの競争する音楽ストリーミング・サービスと差別化するために、 Apple はダウンロード・サービスと、将来のストリーミング・サービスの双方において、高品質の音楽を提供することにフォーカスしている。 Google も明らかに、 Android ハンドセット用のデジタル・ミュージック・ストリーミングに関するプランを有しており、クラウド・ベースのデジタル・ミュージック・サービスになるとウワサされているが、それに関連するアプリケーションやサービスは発表されていない。この Google のミュージック・サービスが、Android Market と統合され、そこに含まれる最新の Book タブのように、統合されていく可能性がある。 しかし、現実には、Android Ver 3.0 である Honeycomb をスマートフォンに適用し、そのミュージック・プレイヤーを挿入することで、ミュージック・ストリーミング・サービスを実装する方法が、ハッカーたちにより見つけ出されている。

When it comes to smartphones, service providers like Spotify provide a premium service supporting music streaming over WiFi and 2.5/3G networks. If the network connection is poor,  users can store songs and playlists in offline mode as well. Users can also sync their mobile and computer so that playlists are identical on each device. The Music and Copyright blog provides a good overview of the current cloud-based music service providers and which of them already offer support for mobile phones.

スマートフォンの話になると、Spotify などサービス・プロバイダーが、WiFi および 2.5 / 3G ネットワーク上で、ミュージック・ストリーミングをサポートする、プレミアムなサービスを提供している。 ネットワーク接続が悪い状況においては、ストアされた楽曲とプレイリストを、オフライン・モードで利用できる。また、モバイルとコンピュータを同期させることで、どのデバイスにおいても、同じプレイリストを利用できる。同社の Blog は、クラウドをベースとする、現在の音楽サービスプロバイダーについて、その状況を適切に説明している。そして、それらは、すでにモバイル・フォンにおいて、サポートされているものでもある。

Smartphone streaming is the future

Some music industry professionals, such as Christian Ward, the digital music PR specialist from Clarity Communications, are claiming that any future for music streaming has to have mobile/smartphone as its focus.  Such a claim can be substantiated by several developments. For example, last month the San Francisco-based music streaming service Pandora Media filed for an initial public offering (IPO), a move that was largely affected by the skyrocketing use of its online radio service’s smartphone apps. In the past year Pandora’s registered user base has nearly doubled, mainly due to the smartphone apps, which are nearing 80 million users. Spotify, with its approximately 10 million users is planning on launching a Pandora-like mobile streaming music service, expecting a significant growth in its user base.

たとえば、Clarity Communications のデジタル・ミュージック PR スペシャリストである Christian Ward などは、あらゆるミュージック・ストリーミング・サービスは、その将来において、モビール/スマートフォンにフォーカスしなければならないと主張している。  このような主張は、いくつかの開発により実証されるだろう。 たとえば、San Francisco ベースのミュージック・ストリーミング・サービスである Pandora Media は、先月に初めての IPO を申請したが、オンライン・ラジオ・サービスを提供する、スマートフォン・アプリケーションの利用の急増が、その背景にある。 これまでの1年間において、Pandora のユーザー数は倍増しているが、その大半はスマートフォン・アプリケーションであり、そのユーザー数は 8000万人に近付いている。およそ 1000万人のユーザーを有する Spotify は、Pandora のようなモバイル・ストリーミングの音楽サービスを計画し、また、ユーザー数を大幅に拡大しようと目論んでいる。

Revenue models

While some of the cloud-based streaming music service providers are charging a premium for mobile streaming, Pandora is among those offering free ad-supported versions. To obtain a large subscriber base it seems that free opt-in services with mobile ads will be the model of choice for the masses, while a smaller segment of users will prefer to pay a premium to obtain ad-free music streaming to their handsets.

いくつかの、クラウド・ベースの音楽ストリーミング・プロバイダーが、モバイル・ストリーミングに関して特別な料金を請求しているが、Pandora に関しては、広告を取り込んだ無償バージョンの 1つとして成り立っている。大量のサブスクライバーを得るために、モバイル広告を加えた無料の opt-in サービスが、広範囲に適用されるモデルになると思われる。 その一方で、広告を排除した音楽ストリーミングを、自らのハンドセットに得るために料金を支払う、小さなセグメントのユーザーが存在する。

ーーーーー

以前に、Sky FM の Smooth Jazz について書いたことがありますが、Agile_Cat 的には、こんな感じの FM 局を 10個ほどプリセットてきて、Kindle みないな 3G サービスが付いて、iPod Shuffle くらいのサイズに収まるデバイスが理想なのですが、それも夢ではない感じがしてきました。 ワクワクです! ーーー __AC Stamp 2

ーーーーー

<関連>

いったい誰が、クラウド版の iTunes を作れるのか? いや、作るべきなのか?
♫ Smooth Jazz を Winamp と Android で ・・・
Paul McCartnet と Hewlett Packard が仰天プロジェクトを発表 – BBC News の対訳
今朝の Apple iTunes Cloud 報道から(英語版ニュースを20本ほど)

Big Data を 美味しくいただくための、クッキング・ブックを作ろう

Posted in Big Data, Hadoop, MapReduce, NoSQL by Agile Cat on March 9, 2011

The Big Data Cookbook
Posted in
Main on March 8th, 2011
by Pingdom
http://royal.pingdom.com/2011/03/08/the-big-data-cook-book/ 

_ pingdom

Big data has become one the new buzzwords on the Internet. It refers to the massive amounts of data that many modern web services deal with. This post will list some of the more useful software available to web developers for working with big data.

Big data は、インターネット上の新しいバズワードになっている。 この用語は、数多くのモダンな Web サービスが取り扱う、大規模なデータのことを指す。 そして、このポストでは、ビッグ・データの分野で働くWeb デベロッパーにとって有益な、いくつかのソフトウェアをリストアップしていく。

5508810133_b27187101d_o

You don’t have to operate at the scale of Google or Facebook to enter into big data territory. Web analytics services, monitoring services (like our very own Pingdom), search engines, etc., all process and store massive amounts of data.

ただし、この領域に参加するからといって、Google や Facebook のスケールを考える必要はない。 そこまでいかなくても、Web 分析サービスおよび、モニタリング・サービス(Pingdom など)、サーチ・エンジンなどの全てが、大量データの処理と保存に対応している。

To quote Wikipedia (Wikipedia からの引用):

Big data are datasets that grow so large that they become awkward to work with using on-hand database management tools. […] Though a moving target, current limits are on the order of terabytes, exabytes and zettabytes of data.

Big data ビッグ・データは、成長が著しいデータセットであるため、手製のデータベース・マネージメント・ツールを用いた作業は厄介になってしまう。 [中略]その上限が定まっているわけではないが、現時点におけるデータの限度は、テラバイト/エクサバイト/ゼッタバイトの並びの上にある(つまり、ペタということ?)。

At this scale, many traditional approaches for handling and processing data are either impractical or break down completely.

このスケールにおける、従来からのアプローによるデータの操作と処理の試みは、現実的なものにならず、また、完全に失敗する。

That’s why the web development community has been turning to alternative ways to handle all this data, developing new software that scales to these extremes. You may have heard about NoSQL databases, but that’s just a small piece of the puzzle.

そこに、Web 開発のコミュニティが、それら全てのデータを取り扱うための、代替案を探し求めてきた理由がある。つまり、それらを大幅にスケールするソフトウェアの開発である。 NoSQL データベースの情報を持っていると思うが、それはパズルにおける小さい小片である。

So what are the various ingredients available for handling big data? We’ve divided them into four categories:

そして、このビッグデータを取り扱うために利用できる、各種の構成要素とは、何なのだろう?私たちは、それを を4つのカテゴリに分けてみた:

  • Storage and file systems
  • Databases
  • Querying and data analysis
  • Streaming and event processing

We figured this could be a good starting point, and we’re hoping that you’ll help us add to the list in this post by making your own suggestions in the comments. In other words, read the list, and help us add more useful ingredients!

私たちは、これが適切なスタート・ポイントだと考えている。そして、皆さんからのコメントを介して、いろいろな提案が集まり、このポストのリストに追記されていくことを希望している。言い換えれば、このリストを読み、さらに有益な構成要素を加え、私たちをサポートして欲しいのだ!

ーーーーー とりあえず、訳はココまで ーーーーー

Here we go…

Storage and file systems

When you need to store massive amounts of data, you’ll want a storage solution designed to scale out on multiple servers.

  • HDFS (Hadoop Distributed File System) – Part of the open source Hadoop framework, HDFS is a distributed, scalable file system inspired by the Google File System. It runs on top of the file system of the underlying OSs and is designed to scale to petabytes of storage. The Hadoop project (you’ll see several of the other components further down) has several high-profile contributors, the main one being Yahoo. Hadoop is used by Yahoo, AOL, eBay, Facebook, IBM, Meebo, Twitter and a large number of other companies and services.
  • CloudStore (KFS) – An open source implementation of the Google File System from Kosmix. It can be used together with Hadoop and Hypertable. A well-known CloudStore user and contributor is Quantcast.
  • GlusterFS – A free, scalable, distributed file system developed by Gluster
Databases

While classics like MySQL are still widely used, there are other options out there that have been designed with “web scalability” in mind, many of them so-called NoSQL databases (speaking of buzzwords…).

  • HBase – A distributed, fault-tolerant database modeled after Google’s BigTable. It’s part of the Apache Hadoop project, and runs on top of HDFS.
  • Hypertable – An open source database inspired by Google’s BigTable. A notable Hypertable user is Baidu.
  • Cassandra – A distributed key-value database originally developed by Facebook, released as open source, and now run under the Apache umbrella. Cassandra is used by Facebook, Digg, Reddit, Twitter and Rackspace, to name a few.
  • MongoDB – An open source, scalable, high-performance, document-oriented database. It’s used by, among others, Foursquare, Bit.ly, Shutterfly, Etsy and Chartbeat.
  • Membase – An open source, distributed, key-value database optimized for interactive web applications, developed by several team members from the famous Memcached project. Users include Zynga and Heroku. A month ago, the Membase project merged with CouchDB, creating a new project called Couchbase.
Querying and data analysis

All that data is of no use without the ability to access, process and analyze it.

  • Hadoop MapReduce – Open source version of Google’s MapReduce framework for distributed processing of large datasets.
  • Hive – An open source data warehouse infrastructure with tools for querying and analyzing large datasets in Hadoop. Supports an SQL-like query language called Hive QL.
  • Pig – A high-level language used for processing data with Hadoop. Funny aside: the language is sometimes referred to as Pig Latin.
Streaming and event processing

When you have massive amounts of data flowing into your system, you will often want to process and react on this data in real time.

  • S4 – A general-purpose, distributed, scalable platform for processing continuous streams of data. Developed by Yahoo and released as open source in 2010. It’s apparently not quite ready for prime time yet, although Yahoo is using a version of it internally.
  • Esper – An event-processing platform from EsperTech for handling continuous streams of incoming data.
  • StreamInsight – Microsoft’s entry in the EST/CEP field, included with SQL Server.

A small aside when speaking of streaming and event processing, you’ll hear two industry terms repeated over and over again: EST, Event Stream Processing, and CEP, Complex Event Processing. Just in case you were wondering what that actually stood for.

The Google legacy

It’s interesting how influential Google has been in the big data field in spite of having released very little actual software to the public.

Much of the open source big data movement is centered around Apache’s Hadoop project, which essentially has tried to replicate Google’s internal software based on the various whitepapers Google has made available. (More specifically, Hadoop has replicated GFS, BigTable and Mapreduce.)

Here is a list of some of Google’s proprietary software relating to big data:

  • GFS (Google File System) – Google’s scalable, fault-tolerant, distributed file system. Designed from scratch for use with data-intensive applications.
  • BigTable – A distributed, high-performance database system built on top of GFS.
  • Mapreduce – A framework for distributed processing of very large data sets.
  • Pregel – A framework for analyzing large-scale graphs with billions of nodes.
  • Dremel – Meant as a faster complement to Mapreduce, Dremel is a scalable, interactive, ad-hoc query system for large data sets. According to Google, it’s capable of running aggregation queries over trillion-row tables in seconds and scales to thousands of CPUs.

If we may be so bold as to bring out our crystal ball, there will most likely be several open source implementations of Pregel and Dremel available soon. For example, there’s already an OpenDremel project in the works.

Help us add more ingredients!

What excellent big data software did we leave out? Let’s make this post a true resource, so please give us a hand in the comments.

ーーーーー

なかなか面白い試みで、さすがは Pingdom です。 それと、Google legacy というカテゴリがユニークですが、さまざまな基盤を提供してくれて有難うと、言いたくなる実績ですね! では コメント欄から、ご意見など、ぜひ ど~ぞ! ーーー __AC Stamp 2

ーーーーー

<関連>
Mollom アーキテクチャは、毎秒 100回のリクエストを発行し、3億 7300万のスパムを退治する
プロジェクト Piccolo は、スピードで Hadoop を凌駕する
Real World NoSQL シリーズ – Netflix における Amazon SimpleDB
Real World NoSQL シリーズ – Openwave における Cassandra
Real World NoSQL シリーズ – 4PB を処理する Trend Micro の HBase
Google の発想 – リクエストとレスポンスを Tree で制御する
TOPSY の Twitter 分析 API は、5 億クエリー/月 を処理する!

Streaming Media East 2010 Conference の速報

Posted in Network by Agile Cat on May 14, 2010

May 10-11, 2011 – New York, NY

 

New York Medis Streaming

New York では Streaming Media East 2010 Conference なるものが開催されていたようです。ここでのスター・プレイヤーは、やはり Akamai。 以下のリストのトップにある、お馴染みの Data Center Knowledge のポストでは、Akamai の Stuart Cleary 氏の Youtube インタビューが収録されています。 それと、目玉は Falsh と HTML5 です。 ここも熱い戦いになると、予測されるエリアですね。 それらのトピックも、このリストに入っています。

___space

Thank you for making the Streaming Media East 2010 conference and exhibition a huge success!

Save the date for Streaming Media East 2011
May 10-11, 2011 – (Preconference Workshops: Monday, May 9)
Hilton New York • New York, NY

Download Speaker Presentations
Workshop:
Video Production for Streaming
Workshop: Encoding H.264 Video for Streaming and Progressive Download
Workshop: Flexible Media Delivery on the Adobe Flash Platform
Workshop: Creating Smooth Streaming Video Solutions With Silverlight and IIS Media Services
CDN Summit: CDN Data: Pricing, Contract, Volume and Market Sizing Trends
CDN Summit: Verizon Keynote

ーーーーーーーーーーーーーーーーーーーーーーーーーー


Overview: Akamai’s Content Delivery Network
Data Center Knowledge –
Rich Miller – 8 hours ago
At the Streaming Media East conference in New York, we spoke with Akamai’s Stuart Cleary about the company’s infrastructure, where it lives, and some of the …

 

image

Ars Technica

Adobe Advances Flash Platform Media Delivery Solutions at …
MarketWatch (press release) – 2 days ago
Adobe will demonstrate its new solutions during the Streaming Media East 2010 Conference at its booth (#226) at the New York Hilton Hotel, May 10-12. …
New enhancements to Flash platform announced by Adobe‎ – oDesk Job News (blog)
Adobe upgrades, renames DRM software for Flash‎ – NetworkWorld.com
Anystream Agility(R) 2G to Support HTTP Dynamic Streaming for the …‎ – Earthtimes (press release)
PR Newswire (press release)NewTeeVee (blog)
all 81 news articles »

 

image 

Telegraph.co.uk

Adobe Readies Flash Player Debut for Android Devices
Beet.TV (blog) – 10 hours ago
I caught up with Adobe’s Jen Taylor this week at the Streaming Media East conference for an update on Adobe news including new http streaming and DRM …
Adobe upgrades, renames DRM software for Flash‎ – Macworld
all 445 news articles »

 

image 

Earthtimes (press release)

Sorenson 360 V2 Aims for the Top
StreamingMedia.com –
Troy Dreier – 2 days ago
One year after launching Sorenson 360 at Streaming Media East 2009, Sorenson is back with version 2 for Streaming Media East 2010. …
Sorenson Media’s New Sorenson 360 v2 Online Video Platform Built …‎ – Business Wire (press release)
Sorenson Targets Brightcove in Updated Release of Online Video …‎ – San Diego Union Tribune
Sorenson launches OVP it says is enterprise ready‎ – FierceOnlineVideo
NewTeeVee (blog)PR Newswire (press release)
all 51 news articles »

 

New Video Guide "Clicker" Indexes the 750K People You Want to Watch
Beet.TV (blog) – 1 hour ago
We think its an interesting approach to video discovery Yesterday I spoke with Jim Lanzone, CEO of the Los Angele-based Clicker at the Streaming Media East …

 

Streaming Media East 2010 Keynote 2: Yahoo’s Rebecca Paoletti
StreamingMedia.com –
Tim Siglin – 1 day ago
The second day of Streaming Media East 2010 was headlined by Rebecca Paoletti, director of video strategy for Yahoo. …

 

Sorenson Media and ProKarma Interactive Partner to Develop Top …
Benzinga – 12 hours ago
Sorenson Media and ProKarma Interactive today announced at the Streaming Media East 2010 conference that the two companies have entered a strategic …

 

Oppenheimer Raises Price Target For Akmai Technologies (AKAM)
Benzinga –
Ed Liston – 8 hours ago
Earlier this week, analysts attended the Streaming Media East conference in New York. According to analysts, the key takeaways from the conference include …

 

Brightcove Unveils First HTML5 Video Advertising Solution with …
PR Newswire (press release) – 1 day ago
NEW YORK, May 12 /PRNewswire/ — Today at Streaming Media East, Brightcove, the leading online video platform, announced plans to go live by early June with …

 

Heading back from Streaming Media East 2010
TMC Net (blog) – 2 days ago
I was at Streaming Media East in NY today with some of my team." Rich Tehrani tweeted, "Heading Back from Streaming Media: Follow me:Facebook ProfileGoogle …

 

Boxee Readies Payment Solution with Vindicia — Working on iPad …
Beet.TV (blog) – 10 hours ago
On Tuesday at Streaming Media East, I caught up with Boxee founder and CEO Avner Ronen for an update on the payment system and other developments including …

 

Streaming Media East Keynote: Kodak’s Jeffrey Hayzlett
StreamingMedia.com – Tim Siglin – 2 days ago
Kicking off Streaming Media East 2010, Jeffrey Hayzlett, chief marketing officer of the Eastman Kodak Company, talked about how Kodak is …

 

ーーーーー

<関連>
Akamai が 3.45 TBits / 秒のピークを記録
Akamai って、どんな会社なの?
Windows Azure CDN で Blob も OK!
なぜ、Google はアジアの海底ケーブルに投資する?
Amazon の Media Streaming – CloudFront
Gartner : Ray Ozzie – Interview_1

%d bloggers like this: