Agile Cat — in the cloud

Twitter が提供する、Hadoop ライクな OSS とは?

Posted in .Selected, Big Data, Hadoop, Twitter by Agile Cat on August 9, 2011

Twitter to open source Hadoop-like tool
By
Stacey Higginbotham Aug. 4, 2011
http://gigaom.com/cloud/twitter-to-open-source-hadoop-like-tool/

_ Gigaom

Attention webscale aficionados, Twitter says it is planning to open source Storm, its Hadoop-like real-time data processing tool. In a blog post Thursday, the microblogging network said it plans to release the Storm code on Sept. 19 at the Strange Loop event in St. Louis, Mo.

Webs Scale マニアよ注意せよ – Twitter は、Hadoop ライクなリアルタイム・データ・プロセシング・ツールに関して、オープンソースの嵐を巻き起こそうと計画しているらしい。 木曜日(8/4)のブログポストで、このマイクロ・ブログ・カンパニーは、9月19日に St. Louis, Mo で開催される Strange Loop というイベントで、Storm のコードを公表する計画を練っていると発言した。  

imageThe question is — does the world need another real-time data processing tool? After all there are many tools like HStreaming (using Hadoop), the open source S4 and StreamBase, but the overall analytics market (if you can call it a market) is already fragmented. The Storm code comes from Twitter’s acquisition of BackType last month and seems to be an effort to get folks comfortable parsing data on Twitter.

そこでの疑問は以下のとおりである ー 世界は、もう 1つのリアルタイム・データ・プロセシング・ツールを必要とするか? 結局のところ、オープンソースである S4StreamBase といった、数多くの HStreaming(Hadoop を利用)ツールがあが、分析のための全体的なマーケットは(単にマーケットと呼ぶなら)、すでに分裂している。 Storm のコードは、先月に Twitter が買収した BackType がベースとなり、また、同社におけるデータ解析を快適にするために、folk したものと思われる。

The post does an excellent job laying out use cases for Storm and hints at more to come. While the code can deal with distributed nodes and huge amounts of data a la Hadoop or Map Reduce, Storm handles jobs that are “infinite.” It’s not for a data processing job with an end point, it’s good for streams of data and continual processing. From the post by Nathan Marz:

そのポストは、Storm のユースケースを概説し、これから加えられる機能をほのめかすという意味で、良い仕事をしている。 そのコードは、Hadoop あるいは Map Reduce のように、分散ノードと大量データを取り扱いう。 そして、Storm が処理するのは、「無限」のジョブとなる。 それは、エンドポイントを用いたデータ・プロセシング・ジョブのためのものではなく、データ・ストリーミングと継続的な処理に適している。Nathan Marz によるポストは、以下のとおりである:

Here’s a recap of the three broad use cases for Storm:

  • Stream processing: Storm can be used to process a stream of new data and update databases in realtime. Unlike the standard approach of doing stream processing with a network of queues and workers, Storm is fault-tolerant and scalable.
  • Continuous computation: Storm can do a continuous query and stream the results to clients in realtime. An example is streaming trending topics on Twitter into browsers. The browsers will have a realtime view on what the trending topics are as they happen.
  • Distributed RPC: Storm can be used to parallelize an intense query on the fly. The idea is that your Storm topology is a distributed function that waits for invocation messages. When it receives an invocation, it computes the query and sends back the results. Examples of Distributed RPC are parallelizing search queries or doing set operations on large numbers of large sets.

広範囲におよぶ、Storm の 3つのユースケースを、以下に要約する:

  • Stream processing: Storm は、新規データのストリームを処理し、データベースをリアルタイムで更新するために使用できる。Qqueue と Worker のネットワークを用いてストリームを処理をする、従来からの標準的なアプローチとは異なり、Storm はフォールト・トレラントであり、また、スケーラブルである。
  • Continuous computation: Storm は継続的にクエリーを発行し、また、その結果をクライアントへ向けて、リアルタイムにストリーミングする。たとえば、Twitter のトレンディングなトピックを、ブラウザへ向けてストリーミングすることが可能だ。 対象となるブラウザは、それらのトレンディングなトピックが発生するたびに、リアルタイムなビューで参照することになる。
  • Distributed RPC: Storm は、高負荷なくエリーを、on the fly で並列化するために利用できる。 この発想により、Stormトポロジーは、呼出しメッセージを待つための分散的な機能になる。 呼び出しが受信されたとき、クエリーが処理され、その結果が返される。 Distributed RPC の例としては、検索クエリーの並列化、および、膨大なデータセットに対する設定オペレーションなどがあげられる。

_ TwitterBut wait! There’s more! At the end of the post we are assured that there’s more to Storm than the blog post has even defined, which we can learn more about next month at the Strange Loop event. From the post:

しかし、これで、すべてではない! さらに、多くの事柄がある! このブログポストの終わりには、そこに記載された以上の機能があるとされ、来月の Strange Loop イベントで、詳細を学ぶことが可能と約束されている。以下は、そのポストから:

I’ve only scratched the surface on Storm. The “stream” concept at the core of Storm can be taken so much further than what I’ve shown here — I didn’t talk about things like multi-streams, implicit streams, or direct groupings. I showed two of Storm’s main abstractions, spouts and bolts, but I didn’t talk about Storm’s third, and possibly most powerful abstraction, the “state spout”. I didn’t show how you do distributed RPC over Storm, and I didn’t discuss Storm’s awesome automated deploy that lets you create a Storm cluster on EC2 with just the click of a button.

私は、Storm の表層を語ったただけである。 Srtorm のコアにある「Stream」のコンセプトは、ここに記した以上のものである。 つまり、multi-streams および、implicit streams、direct groupings について、私は言及していない。 私は、Storm における主要な抽象概念である、spouts and bolts について説明したが、3番目の概念については話していない。 それは、おそらく最も強力な、state spout という抽象概念である。 また、Storm 上に分散 RPC を展開する方式や、ボタンをクリックするだけで EC2 上に Storm クラスタを作成する、素晴らしく自動化されたデプロイメントについても説明していない。

So for those anxious to test out a new method of crunching terabytes of real-time data on the fly, get thee to GitHub! And wait.

テラバイトのリアルタイム・データを on the fly で処理するための、この新しい方式を試したいなら、GitHub へ行け!そして、待て。

Related research and analysis from GigaOM Pro:

 

 

 

ーーーーー

このところ、Twitter のテクノロジーに、いくつかの変更と拡張が加えられているようです。 Facebook との棲み分けの時代から、Google+ との競合の時代へと、Twitter の環境は変化しています。 たいへんだろうけど、頑張って欲しいです。 ーーー __AC Stamp 2

ーーーーー

<関連>

Twitter における、Ruby から Java への回帰とは?
Twitter サーチを 3倍速にする新アーキテクチャとは? _1
Twitter サーチを 3倍速にする新アーキテクチャとは? _2
Twitter サーチを 3倍速にする新アーキテクチャとは? _3

 

 

Cleantech Open で見かけた、5 つのスマートグリッド・スタートアップたち

Posted in Energy, Green IT by Agile Cat on August 9, 2011

5 smart grid startups to watch via the Cleantech Open
By
Katie Fehrenbacher Jul. 15, 2011
http://gigaom.com/cleantech/5-smart-grid-startups-to-watch-via-the-cleantech-open/

_ earth2tech

The network of the smart grid is taking its sweet time to get deployed, but we still need smart applications to run over, and at the edges of, these networks once they are fully installed. At the business competition the Cleantech Open this week, there were a dozen or so entrepreneurs looking at energy applications, energy data management and using software to integrate more clean power on the grid.

スマート・グリッドのネットワークは、それをディプロイするときにうまいビジネスをと考えているが、それらのネットワークがインストールされた後のエッジで実行される、スマート・アプリケーションが依然として必要とされている。 それらのビジネスを競い合う、今週(7月中旬)の Cleantech Open には、エネルギーとデータ管理のアプリケーションを開発し、ソフトウェアによるクリーン電力を活用していこうとする、1ダース以上の企業家たちが集まった。

Image courtesy of Vladeb

Here are five smart-grid startups to watch out of the Cleantech Open:

以下に、Cleantech Open で注目を集めていた、5つのスマートグリッド・スタートアップを紹介していく:


1. Smart Grid Billing. As the name suggests, this Folsom, Calif–based company sells services to utilities that enable more intelligent billing and smarter ways to start up demand-response events based on its algorithms. Consumers don’t want utilities to noticeably manage their end devices during a demand-response event, so this technology can help make that process more seamless and useful.

その名前が示すように、この Calif–based の Folsom は、独自のアルゴリズムで demand-response イベントを立ち上げる、インテリジェントな請求処理とスマートなサービスを、電力会社に販売していく。この demand-response イベントの間に、消費者のデバイスを、電力会社があからさまに管理することは好まれないため、さらにシームレスで効果的なプロセスを、このテクノロジーが支援することになる。

2. Qado Energy. Qado has developed software for modeling, analytics and monitoring for utilities for the distribution portion of their grids. Utilities can use the software to model how their grids will react when they add new clean-power generation that can be variable and cause power spikes and gaps.

Qado は、グリッド上の分電部分に関する、モデリング/分析/モニタリングのソフトウェアを開発し、電力会社に販売していく。それにより、変化しやすく、ピークやギャップを持ちやすいクリーン・エネルギーを加えるときに、このソフトウェアを用いて、電力会社はグリッドの反応をモデリングできるようになる。

3. GridMobility. GridMobility is working on a particularly fascinating project: using hot water heaters to store energy for utilities to help integrate wind power. The startup’s technology enables utilities to keep track of power assets in real time, and the company is working with Mason County PUD, Bonneville Power Administration and PJM.

GridMobility は、きわめて魅力的なプロジェクトに取り組んでいる。それは、エネルギーをストアするために温水ヒーターを活用し、風力発電と統合していこうとするものである。 このスタートアップのテクノロジーは、リアルタイムで電力資産を追跡/記録するものであり、Mason County PUD/Bonneville Power Administration/PJM と協業している。

4. Growing Energy Labs. Growing Energy Labs is developing networking technologies for energy storage. Researchers think there will be a breakthrough in energy storage in the U.S. in 2012, given that a variety of pilots will have been completed, and much more energy storage will be needed to integrate clean power onto the grid.

Growing  Energy Labs は、電力ストレージのためのネットワーク・テクノロジーを開発している。 研究者たちは、いろいろなパイロット・プロジェクトが完了する 2012年移行に、アメリカの電力ストレージにブレークスルーが生じると考えている。つまり、グリッド上にクリーン電力を統合するためには、さらに多くの電力ストレージが必要とされることになる。

5. AC Research Labs. AC Research Labs sells an air-conditioning retrofit product called HelioMist that reduces air-conditioning power by 20 to 30 percent.

AC Research Labs は、エアコンの消費電力を 20%~30% 低減するための、HelioMist というエアコン・リトロフィット・プロダクトを販売している。

See any new smart grid startups I should check out? Leave me tips in the comment section.

私がチェックした、スマート・グリッド・スタートアップは どうだろう? コメント・セクションに、ティップスを残して欲しい。

Related research and analysis from GigaOM Pro:

ーーーーー

3.11 以来、日本でも、次世代エネルギーに関する議論が活発になってきましたが、それと同時に考えていかなければならないのが、スマートグリッドの視点なのです。 この GigaOm の earth2tech は、ずっと気になっていたのですが、なかなか翻訳まで踏み込める時間がなく・・・ という感じでした。 でも、今日、ようやく 一本! できました :)  これからも、面白いものがあれば、掲載していきたいです。 ーーー __AC Stamp 2

ーーーーー

<関連>

日本の大震災により、スマートグリッドの議論を深める米国
いまこそ スマート・グリッド を考えよう – 多様性とセキュリティ
スマートグリッド導入で電力不足は解決できる ― 村上憲郎
アメリカ政府は今日、スマート・グリッドの推進策を表明する
Obama 政権が公表した、スマート・グリッドを構築するための具体策とは?
NTT America が DC にディプロイする燃料電池とは?
NASA から生まれ、Google や eBay が利用する、燃料電池 Bloom Box とは?

 

%d bloggers like this: