Agile Cat — in the cloud

Hadoop World 2010 の ビデオと PPT

Posted in Cloudera, Hadoop by Agile Cat on November 14, 2010

Hadoop World 2010 · Agenda
http://www.cloudera.com/company/press-center/hadoop-world-nyc/agenda/
Tuesday, October 12

Hadoop World 2010 の、ビデオと PPT が公開されたようです。ーーー A.C.

image

Tagged with: , , , ,

Teradata と Cloudera が Hadoop で提携!

Posted in Cloudera, Data Warehousing, Hadoop by Agile Cat on September 16, 2010

Teradata, Cloudera team up on Hadoop data warehousing
By Larry Dignan
September 15, 2010, 5:30am PDT
http://www.zdnet.com/blog/btl/teradata-cloudera-team-up-on-hadoop-data-warehousing/39198

image

Teradata and Cloudera on Wednesday announced plans to collaborate on Hadoop-powered enterprise analytics and data warehousing projects.

この水曜日(9/15)に Teradata と Cloudera は、Hadoop のパワーを用いたエンタープライズにおける分析と、データ・ウエアハウジングのプロジェクトにおいて、協調していく計画があると発表した。

In a nutshell, Teradata customers will be able to use Cloudera’s Hadoop distribution to analyze unstructured data collected from various sources. This information can then be funneled into a Teradata data warehouse.

一言でいえば、Teradata の顧客は、Cloudera から提供されるHadoop を用いて、各種ソースから集められた非構造データを分析することが可能になる。 続いて、それらの情報は、Teradata データ・ウエアハウスに流し込まれることになる。

image

The partnership is notable since Hadoop is viewed by companies as a way to work around data warehousing systems. Yahoo is a big champion of Hadoop as a way to handle large scale data analytics.

このパートナーシップが注目に値する理由は、データ・ウエアハウジング・システムの周辺において、Hadoop が適切な手法として見なされている点にある。大規模なデータ分析を取り扱う方法として、Hadoop における偉大なチャンピオンは、言うまでもなく Yahoo である

image

Teradata and Cloudera say that the partnership will make it easier to query large data pools to develop insights. Teradata is pitching a hybrid Hadoop-data warehousing approach. The company said:

Teradata と Cloudera の説明によると、このパートナーシップでは洞察を展開するために、大規模なデータプールに対するクエリーを容易にすることになる。 つまり、Teradata は、ハイブリッド Hadoop データ・ウエアハウジングのアプローチに取り組んでいる。 同社の発言によると:

Parallel processing frameworks, such as Hadoop, have a natural affinity to parallel data warehouses, such as the powerful Teradata analytical database engine. Although designed for very different types of data exploration, together the two approaches can be more valuable in mining massive amounts of data from a broad spectrum of sources. Companies deploying both parallel technologies are inventing new applications, discovering new opportunities, and can realize a competitive advantage, according to an expert in very large data solutions.

Hadoop のような並列処理のフレームワークは、たとえばTeradata における分析用データベース・エンジンのようなデータ・ウエアハウスと、自然な距離感を持つ。 きわめて異質なデータ検証のためにデザインされてはいるが、2つのアプローチを組み合わせることで、きわめて広範囲におよぶデータ・ソースに基づく大量のデータ・マイニングにおいて、さらに価値のある手法が実現し得る。大規模データ・ソリューションの専門家によると、両社が実装している並列テクノロジーは、新しいアプリケーションをもたらし、また、競合におけるアドバンテージを具体化していくという。

In other words, Hadoop and data warehousing isn’t a zero sum game. The two techniques technologies will co-exist. Teradata will bundle a connector (the Teradata Hadoop Connector) to its systems with Cloudera Enterprise at no additional cost. Cloudera will provide support for the connector as part of its enterprise subscription. The two parties will also jointly market the connector.

言い方を換えれば、Hadoop とデータ・ウエアハウジングの関係は、Zero Sum Game ではない。 この 2つのテクノロジーは、共存していくだろう。 Teradata の Hadoop コネクターにより、一連のシステムがCloudera Enterprise に接続されるが、そこでは追加のコストは発生しない。 Cloudera におけるエンタープライズ・サブスクリプションの一部として、このコネクターはサポートされる。 つまり、両社は共同で、このコネクターを市場に提供することになる。

ーーーーー

Netezza との提携は 6月頃の発表だったと思います。 いろいろと具体的な事例が増えてきて、とても楽しみな展開になってきましたね。 ーーー A.C.

ーーーーー

<関連>
Cloudera と Netezza による、Hadoop の商用アプライアンスとは?
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例
エンタープライズ RDBMS を Hadoop で補完 _1
エンタープライズ RDBMS を Hadoop で補完 _2

Avro による分散システムのトレース

Posted in Cloudera, Hadoop by Agile Cat on September 6, 2010

Tracing with Avro
by
Jon Zuanich
September 03, 2010
http://www.cloudera.com/blog/2010/09/tracing-with-avro/

Cloudera

Written by Patrick Wendell, an amazing summer intern with Cloudera and an Avro Committer.

In my summer internship project at Cloudera, I added RPC tracing as a first-order feature of Apache Avro. Avro is a platform for data storage and exchange that caters to data-intensive, dynamic applications. My project focused on Avro’s RPC functionality.

Cloudera サマー・インターシップ・プロジェクトでは、Apache Avro の一番の特徴として、RPC トレーシングを加えた。 Avro とは、データ・セントリックでダイナミックなアプリケーション要件を充たす、データのストレージとエクスチェンジのためのプラットフォームのことである。 そして、私のプロジェクトでは、Avro の RPC 機能にフォーカスしてみた。

It is common knowledge that tracing in distributed systems can be difficult. In user-facing web services, a front-end function may recursively trigger several function calls to mid and back-tier services. In offline processing, data-center storage layers may distribute data across several hosts, querying one or many of them when a client requests a file. In either case, the inter-dependency of components makes it difficult to pinpoint the source of a slowdown or hang-up when they inevitably occur.

分散システムにおけるトレースは困難であるという、周知の事実がある。 ユーザーと向き合う Web サービスにおいて、フロント・エンドの機能は、サービスのミッド/バック・ティアに対するファンクション・コールを、リカーシブに引き起こしていくだろう。オフラインのプロセスでは、データセンター・ストレージ・レイヤが、いくつかのホストへとデータを分散する。 その結果として、クライアントがファイルを必要とするときに、複数のホストに対するクエリーが生じる。 どちらのケースにおいても、コンポーネント間の依存関係が必然的に生じるとき、スローダウンやハングアップの原因をピンポイントで指摘することは難しい。

AvroTrace is designed as a first responder for diagnosing problems in distributed systems that use Avro for RPC transport. It has two components, a real-time monitoring dashboard and an offline trace analyzer. Both run as low-overhead Avro plugins which store and propagate tracing meta-data among RPC clients and servers. The monitoring dashboard is accessible via a web interface on any Avro server, delivering a “snapshot” of the most recent RPC activity. The offline analysis tool offers a basic interface for collecting, aggregating, and analyzing this data to identify problem spots. It is largely based on Google’s Dapper tracing infrastructure, which is itself inspired by X-Trace and other academic tracing research.

Avro for RPC トランスポートを用いる分散システムにおいて、問題を診断するための最初のレスポンサーとして、AvroTrace はデザインされている。 そこには、リアルタイム・モニタリング・ダッシュボードと、オフライン・トレース・アナライザーという、2つのコンポーネントが含まれる。 双方とも、オーバーヘッドの少ない Avro Plugin として実行され、RPC クライアントとサーバーの間でのトレース・メタデータをストアし、それらをプロパゲートする。 モニタリング・ダッシュボードは、各種の Avro サーバー上の Web インターフェイスを介したアクセスが可能であり、直近の RPC アクティビティにおける ”スナップショット” を提供する。 そしてオフライン・トレース・アナライザーは、問題が発生したポイントの識別に必要なデータを、収集/集約/分析するための基本的なインターフェイスを提供する。 それは、主として Google の Dapper トレーシング・インフラストラクチャに基づき、X-Trace およびアカデミックなトレーシング研究などに触発されたものだ。

Below is an example trace analysis of a recursive RPC call pattern. In the example application,  one remote call, getFile() triggers two other RPC’s, getFileContents() and getFileMeta(). Avro’s tracing has detected this particular pattern and offers a dashboard view summarizing average timing and payload data. It is also showing detailed graphs for one of the specific nodes in this pattern, getFileContents() presenting a visual history of timing (top) and payload (bottom) analytics.

以下に示すのは、再帰的な RPC コール・パターンに関する、サンプルとしてのトレース分析である。 このサンプル・アプリケーションにおいては、1つのリモート・コールである getFile () が、2つの RPC であるgetFileContents () と getFileMeta () にトリガーをかけている。 Avro のトレーシングにより、こうした特定のパターンが検出され、また、ダッシュボードのビューにより、平均時間と実質的なデータ転送量がサマライズされる。さらに、このパターンにおける特定ノードの詳細を、グラフを用いて示す。 getFileContents () により、 timing (top) のヒストリーと payload (bottom) 分析の結果を表示している。

Avro Tracing

Turnkey tracing is just one of many reasons to use Avro.  I recently became a committer on the Avro project and I look forward to supporting and improving trace functionality in the coming months!

ターンキー・トレーシングは、Avro を利用する際の、選択肢の 1つに過ぎない。  つい最近のことだが、私は Avro プロジェクトのコミッターになり、また、今後の数カ月でトレース機能をサポート/改善していくことを楽しみにしている!

ーーーーー

Avro は,サーバー間における、データ交換のためのプロトコルおよびフレームワークであり、Hadoopのサブ・プロジェクトでもあります。 同じ領域のプロダクトとして、Google のProtocol Buffers や、Facebook が開発した Thrift などがあります。

ーーーーー

<関連>
Cloudera と Netezza による、Hadoop の商用アプライアンスとは?
Hadoop Summit – Jun 29 2010
Microsoft readying Hadoop for Windows Azure の対訳
HDFS のスケーラビリティを考察する _1
Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _1
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例_1
Apache ZooKeeper による分散並列キューの構築 _1

Tagged with: , , , ,

Cloudera – Hadoop Webinar のお知らせです

Posted in Cloudera, Hadoop by Agile Cat on July 28, 2010

Hadoop で解決できる、10種類の共通の課題について

Cloudera

Cloudera のファウンダーであり Chief Scientist でもある Jeff Hammerbacher さんが、Apache Hadoop で解決できる共通の課題についてレクチャーとのことです。 以下の文面を見ると、広範囲におよぶ業界を、かなりの時間を費やして Jeff さんが取材したようで、なにやら面白い話が聞けそうな感じです。 Hadoop の適用に関しては、以下のような業種が、昨年の秋の段階で伝えられていましたが、これが 10種類に増えるということなのでしょうかね?

6 hadoop

10 Common Hadoop-able Problems
Thursday, August 5, 2010 11:00 AM – 12:00 PM PDT


Join Cloudera’s founder and Chief Scientist, Jeff Hammerbacher, as he describes ten common problems that are being solved with Apache Hadoop. Jeff spends a significant amount of time speaking with organizations about how they are using Hadoop and has recognized common themes across a range of industries. He is a sought after industry luminary with great insight into the power of Hadoop with the unique ability to talk at length on technical details and business value.

In this webinar you will learn:
- What are ten common business problems being solved with Hadoop;
- What industries are benefiting from these solutions;
- Specific examples of customers benefiting from Hadoop.

https://www1.gotomeeting.com/register/719074008

ーーーーー

オモシロそうですが、日本時間だと 8月 6日の午前 3時(?)ですよね。 夜更かし、もしくは、早起きに自信のある方は、ぜひ、エントリーしてくださいな。 ーーー A.C.

ーーーーー

<関連>
Hadoop モデリング座談会 – Twitter Live 速報 [ #hadoopmodeling ]
Cloudera と Netezza による、Hadoop の商用アプライアンスとは?
Hadoop Summit – Jun 29 2010
Hadoop で スマートグリッドを、図とデータで見る!
Microsoft readying Hadoop for Windows Azure の対訳
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例

Cloudera と Netezza による、Hadoop の商用アプライアンスとは?

Posted in Cloudera, Data Warehousing, Hadoop by Agile Cat on July 16, 2010

Hadoop Gets Commercial Cred as Cloudera and Netezza Connect
By
Derrick Harris
Jul. 15, 2010, 10:29am PDT

Gigaom

a24f399c-159c-4c9f-aa12-4bc45b64f58c

Commercial Hadoop champion Cloudera is building a connector to enable movement of data between Netezza’s data warehousing appliance and Hadoop clusters built atop Cloudera’s Distribution for Hadoop (CDH). It’s the latest instance of an analytics vendor integrating Hadoop support (via a Cloudera partnership or otherwise) and further evidence that Hadoop has legs as a commercial technology for big data analysis.

商用 Hadoop の雄である Cloudera は、データの移動を可能にするためにコネクターを構築し、Netezza のデータウエア・ハウジング・アプライアンスと、Cloudera’s Distribution for Hadoop (CDH)上の Hadoop クラスタを結ぼうとしている。 それは、Hadoop をサポートすることで(Cloudera などの協業により)、分析能力を提供するベンダーの最新の事例であるだけではなく、大規模データ分析のための商用テクノロジーとして、Hadoop が商用へ向けて守備範囲を広げていることの証明でもある。

Netezza already supported Hadoop within Netezza’s TwinFin appliance, but this partnership goes beyond support and aims to actually make the data movement and transformation process easier.

Netezza の TwinFin アプライアンスでは、すでに Hadoop がサポートされているが、今回の協業は単なるサポートを超えて、実際のデータ移動と転送プロセスを、より容易にすることを目指している。

For data warehousing vendors, the decision to add Hadoop support is all about customer choice. Hadoop clusters are ideal for storing large volumes of unstructured data, processing it and making it ready for analysis, whereas appliances like TwinFin are limited in scale and focus on analyzing standard data types. When the two are combined – especially via specifically designed connectors like in this case – analyses can be carried out across all the data in the combined environment.

データウエア・ハウジング・ベンダーにとって、 Hadoop のサポートは、すべてが顧客のチョイスになっている。 Hadoop クラスタは、大量の非構造化データのストアおよび、その処理と分析のための準備において理想的である。 それに対して、 TwinFin のようなアプライアンスは、スケールの点で制約されており、また、スタンダードなデータタイプの分析にフォーカスしている。 この 2つが接続されるとき、つまり、このケースのようなコネクターをデザインするとき、すべての分析されるべきデータが、接続された環境のいたるところで処理されるようになる。

What’s a bit interesting about this partnership is that it’s with Netezza. I understand that Cloudera and analytics database vendor Greenplum were working together, but there’s no telling how the EMC acquisition affected that work. Given the depth of this partnership – technology, sales and support – it’s possible Cloudera has all but settled on Netezza as its data warehousing sidekick for the time being.

この協業で興味深いのは、その相手が Netezza であることだ。 私の理解では、分析データベース・ベンダーである Greenplum と、Cloudera は協調してきたはずだ。そして、EMC による Greenplum 買収の影響については定かではない。テクノロジー/セールス/サポートに関する緊密なパートナーシップを前提として、いまのところ、Cloudera は Netezza をデータウエア・ハウジングの相棒として、落ち着いたという可能がある。

Of course, it’s neither the first nor the last time we’ll see Cloudera – much less Hadoop, in general – involved in some type of integration efforts. As organization of all types are bombarded by Big Data, business intelligence, database and data warehousing vendors all realize that Hadoop support is becoming a must-have, and it seems safe to say that Hadoop has finally made the journey from search engines to mainstream businesses.

もちろん、それは Cloudera にとって、ましてや Hadoop にとって、最初で最後というわけではなく、また、さまざまなインテグレーションが絡んでくるだろう。 つまり、すべてのタイプの組織が、Big Data ボンバーを食らっているという現状がある。 ビジネス・インテリジェンス/データベース/データウエアハウジングにおける、すべてのベンダーにとって Hadoop サポートが不可欠になっている。 そして、最終的には Hadoop が、サーチ・エンジンからメインストリーム・ビジネスへと至る、長い長い旅路を走破することになると、確信を持って言える。

Photo courtesy of Flickr user Elizabeth Ann Collette.

ーーーーー

いつもは、ひたすら感服の GIGAOM ですが、今回ばかりは 『 @okachimachiorz さんの言っていることじゃん! 』という感じでした。 我が Twitter 仲間の慧眼に脱帽です。 ーーー A.C.

ーーーーー

<関連>
EMC も、ついにクラウドへ本格参入?
EMC の Greenplum 買収に関する、今朝の報道
Hadoop Summit – Jun 29 2010
Hadoop で スマートグリッドを、図とデータで見る!
Microsoft readying Hadoop for Windows Azure の対訳
HDFS のスケーラビリティを考察する
Gridmix3 : Apache Hadoop の実運用負荷をエミュレート
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例

【速報】 Hadoop Summit – Jun 29 2010

Posted in Cloudera, Events, Hadoop by Agile Cat on July 1, 2010

Yahoo Rolls Out Hadoop Enhancements
June 30th, 2010 : John Rath
http://www.datacenterknowledge.com/archives/2010/06/30/yahoo-rolls-out-hadoop-enhancements

image

Yahoo announced significant enhancements to the open source Hadoop software Tuesday at the third annual Hadoop Summit in Santa Clara. Yahoo said the new features will accelerate the potential for enterprise-wise adoption by mainstream businesses. Apache Hadoop is an open source project for developing reliable, scalable, distributed computing.

6月29日の火曜日に Santa Clara で開催された三回目の Hadoop Summit で、Yahoo は オープンソースである Hadoop に関する相当量の拡張について発表した。 これらの新機能について Yahoo は、主要な企業のための適切なエンタープライズ・システムの、導入を加速させる可能性を持つと発言している。 言うまでもなく、Apache Hadoop とは、信頼性とスケーラビリティを備えた分散コンピューティングのオープンソース・プロジェクトである。

hadoop-logo

Over the years that Yahoo’s use of Hadoop has evolved from applied science projects to an enterprise-class platform being used across a 35,000 server infrastructure to develop personalized content for tens of millions of users.

この数年の間に、Yahoo における Hadoop の利用は、科学を応用するためのプロジェクトから、エンタープライズ・クラスのプラットフォームにまで発展してきた。現在では、数千万人のユーザーのためのパーソナライズされたコンテントを開発するために、35,000台のサーバー・インフラストラクチャとして用いられている。

“Hadoop is where science meets big data – it’s the technical underpinning that powers our innovative consumer and advertiser products on the world’s most advanced digital canvas,” said Blake Irving, Executive Vice President and Chief Product Officer at Yahoo. “Yahoo’s cloud and Hadoop make it possible for Yahoo to rapidly personalize our content and advertising, and deliver highly relevant experiences, while maintaining the trust of our 600 million users.”

「Hadoop の立ち位置は、科学と大量データが出会うところにある。そして、世界で最先端のデジタル・キャンバス上で、革新的な消費者のためのアド・プロダクトをパワーアップする技術的な基盤となっている。そして、Yahoo におけるクラウドと Hadoop は、そのコンテントと広告をパーソナライズし、また、きわめて適切なエクスペリエンスを提供する一方で、6億人のユーザーによる信頼を確かなものにする」と、Yahoo の Executive Vice President and Chief Product Officer である Blake Irving は発言している。

At the Summit Yahoo announced the beta release of Hadoop with Security and Oozie, Yahoo’s workflow engine for Hadoop. Yahoo reported that it has tested these two releases and deployed them across tens of thousands of servers.

このサミットで Yahoo は、SecurityOozie を備えた Hadoop および、Hadoop 用のワークフロー・エンジンのベータを発表した。 Yahoo は、これらの 2つのリリースをテストする一方で、何万というサーバー群の中にディプロイしていると報告した。

Yahoo has also partnered with the global academic and scientific community as both a founding member of the Open Cirrus Testbed, which is advancing cloud computing research at an international scale, and the Open Cloud Consortium, a testbed for systems research on large-scale data clouds.

さらに Yahoo は、Open Cirrus Testbed の創設メンバーである、global academic および scientific community と連携し、国際的なスケールにおけるクラウド・コンピューティング研究を推進している。 また、Open Cloud Consortium とは、大規模データ・クラウドのシステムを研究するためのテストベッドを推進している。

Several other companies announced Hadoop-related news at the summit:

このサミットでは、その他の企業も Hadoop に関連するニュースをアナウンスしている:

Cloudera’s Hadoop Version 3

Hadoop-based data management software and services company Cloudera announced the third version of Cloudera’s Distribution for Hadoop (CDH).  As a complete Hadoop-based data management platform, CDH version 3 contains core Apache Hadoop and eight additional open source projects in an easy to install and use package.

Hadoop ベースのデータ・マネージメント・ソフトウェアとサービスを提供する Cloudera は、CDH(Cloudera’s Distribution for Hadoop)の Ver.3 を発表した。Hadoop ベースの 完全な データ・マネージメント・プラットフォームとして、CDH Ver.3 は Apache Hadoop をコアとして取り込み、容易なインストールと利用を可能にするための、8種類のオープンソース・プロジェクトを追加している。

“Cloudera has gained deep experience in the market working with customers to deploy Hadoop in their organizations and has learned how to use Hadoop effectively,” said Doug Cutting, creator of Apache Hadoop and Architect at Cloudera. “CDH v3 is our response. It includes the most appropriate enterprise-grade add-on projects that enhance the core Apache Hadoop framework and make it easier for any organization to use.”

「Cloudera は、Hadoop をディプロイする顧客との共同作業において、このマーケットにおけるエクスペリエンスを深め、また、効果的な Hadoop の用法を学んできた。CDH v3 は、Cloudera からの回答である。 そこには、最適なエンタープライズ・クラスののアドオン・プロジェクトが取り込まれ、コアである Apache Hadoop の フレームワークを拡張し、あらゆる組織において容易な利用を可能にしていく」と、Apache Hadoop の Creator であり Cloudera の Architect である Doug Cutting は発言している。

Two additional open source projects have been added as a part of CDH.  Flume, Cloudera’s data loading infrastructure and Hadoop User Environment (HUE) code will be released under the Apache V2 open source license.

2つのオープンソース・プロジェクトが、CDH の一部として追加されている。 Cloudera のデータ・ローディング・インフラストラクチャとしての Flume と、Hadoop User Environment(HUE)のコードが、Apache V2 オープンソース・ライセンスのもとにリリースされるだろう。

Cloudera also announced Cloudera Enterprise, the first product specifically designed to help organizations fully leverage the Apache Hadoop platform in a production environment, enabling them to cost-effectively store, manage and analyze all of their data.

さらに Cloudera は、プロダクション環境で Apache Hadoop プラットフォームを活用するために設計された、最初のプロダクトである Cloudera Enterprise を発表した。それにより、すべてのデータに関するストア/マネージ/アナライズの、費用対効果が改善される。

“Businesses across all sectors are looking for ways to leverage the vast quantities of data they are accumulating, and Apache Hadoop is an efficient solution for processing data at scale,” said Melanie Posey, research director at IDC Research. “Hadoop has matured and is now becoming an enterprise-ready cloud computing technology with the addition of Kerberos authentication.”

「すべての分野における企業が、蓄積された膨大なデータを活用するための方式を求めている。 そして、このスケールにおけるデータ処理にとって、Apache Hadoop は効果的なソリューションになる。 Hadoop は成熟してきており、また、Kerberos 認証を付加しており、エンタープライズが利用できるクラウド・コンピューティング・テクノロジーになってきた」と、IDC Research の research director である Melanie Posey は発言している。

MicroStrategy announced Hadoop Support

Business Intelligence software company MicroStrategy (MSTR) announced that MicroStrategy 9 offers seamless access to Hadoop as a data source.  The MicroStrategy 9 integration with Hadoop uses Hive, a data warehouse infrastructure that is a subproject of Hadoop. MicroStrategy’s extended data access architecture allows application developers to submit queries using HiveQL, the Hive query language.

Business Intelligence software の企業である MicroStrategy (MSTR)は、そのMicroStrategy 9 において、データソースとしての Hadoop に対する、シームレスなアクセスを提供するとアナウンスした。 MicroStrategy 9 と Hadoop の統合では、Hadoop のサブ・プロジェクトであるデータウエアハウス・インフラストラクチャとして Hive が用いられる。MicroStrategy の拡張されたデータ・アクセス・アーキテクチャンにより、アプリケーション・デベロッパーは HiveQL(Hive query language)を用いたクエリーをサブミットできるようになる。

“The combination of MicroStrategy’s enterprise-class BI software with Hadoop’s data scalability enables a broader range of users, such as business analysts and non-technical users, to gain valuable insights from data stored in Hadoop,” said Amir Awadallah, co-founder and CTO at Cloudera.

「MicroStrategy のエンタープライズ・クラス BI ソフトウェアと、Hadoop のデータ・スケーラビリティを結合することで、たとえばビジネス・アナリストやノン・テクニカルなどの広範囲におよぶユーザーが、Hadoop にストアされたデータから、貴重な洞察を得ることになる」と、Cloudera の創設メンバーで CTO である、Amir Awadallah は発言している。

ーーーーー

<関連>
Hadoop Summit : 6月に Santa Clara で開催!
Hadoop で スマートグリッドを、図とデータで見る!
Microsoft readying Hadoop for Windows Azure の対訳
HDFS のスケーラビリティを考察する _1
Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _1
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例_1
Apache ZooKeeper による分散並列キューの構築 _1
Observers と ZooKeeper _1

Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例_4

Posted in Cloudera, Hadoop, MapReduce by Agile Cat on March 26, 2010

Why Europe’s Largest Ad Targeting Platform Uses Hadoop_4
by Ed Albanese March 10, 2010
http://www.cloudera.com/blog/2010/03/why-europes-largest-ad-targeting-platform-uses-hadoop/

Cloudera

Older and a Little Wiser

The processing times for our most important events in December 2009 were:

2009年 12月時点における、私たちの最重要イベントの処理時間は以下のとおりです:

• 42 minutes to summarize all daily log files for all events
• 1 hour to create training data samples
• 1 hour to create weekly reports
• 3 hours to summarize data accessed via a customer web based interface

• 42分:ログ・イベントに関する日々のデータをサマライズ
• 1 時間:学習データのサンプルを生成
• 1 時間:週レポートの生成
• 3 時間:Web ベースのインターフェイスを介して顧客がアクセスしたデータのサマライズ

Hadoop has really helped us to reduce dramatically the time taken to process data. We can expand both our online and data processing platform in the same way by simply adding more machines.

るという、大きは変革をもたらしました。そして、シンプルにマシンの台数を増やしていくという共通の方式で、オンラインとデータ処理のプラットフォームの双方を、拡張することができます。

A recent interesting development in our market is to enable different customers to share their data with each other for variable time frames. Data shared by several willing customers involves finding and processing huge training sets for our prediction algorithms. If we had not migrated, we could have never made this possible.

私たちのマーケットで最近に行った興味深い開発は、可変的なタイムフレームの中で、別々の顧客のデータを、相互に共有させるというものです。 それを快諾した顧客でのデータ共有により、私たちの予測アルゴリズムのための巨大なトレーニングセットを見つけ出して、調整していくという作業が関連付けられました。 この、Hadoop への移行が行われたいなかったら、このようなチャンスはあり得なかったと思います。

Looking Ahead

A potential next step for us would be to use column-oriented stores with MapReduce integration. Some of the options in the Hadoop ecosystem include Zebra (Pig), RCFile (Hive), or HBase. If this proves to be successful I look forward to writing the follow-up post. Moving from one hour to one minute sounds good.

私たちの次のステップにおける可能性は、MapReduce インテグレーションに対応したカラム指向のストアを利用することでしょう。 Hadoop エコシステムにおける選択肢には、Zebra(Pig)、RCFile(Hive)、HBase が含まれます。それらが成功へと導いてくれるなら、次のポストで経緯を説明したいと思っています。 「1時間」を「1分」に短縮するのは、とてもステキなことです。

About nugg.ad

With its Predictive Behavioral Targeting solution nugg.ad operates Europe’s largest targeting platform. nugg.ad’s unique predictive algorithm reduces media loss, increases campaign efficiency and lowers target-group CPM. nugg.ad works with and assists its clients to increase turnover and win new advertising budgets as it delivers predicted values on socio-demographics, gender and product interests making it possible to target hard-to-reach target groups online.

nugg.ad は、Predictive Behavioral Targeting ソリューションを用いる、ヨーロッパで最大のターゲティング・プラットフォームを運用する企業です。nugg.ad のユニークな予測アルゴリズムは、メディアにおける非効率な運用を低減し、広告キャンペーンの効率を高め、より安価なターゲット・グループ CPM(Cost Per Mille)をもたらします。nugg.ad は、ターゲット・グループへのフォーカスという達成しにくい目標に対して、人口統計や、性別、製品への興味などをオンラインで調査することで、新しい広告予算を勝ち取るように誘導していきます。そして、クライアントと協調し支援していくことで、集客率を高めていきます。

About the author

Richard Hutton is the CTO of nugg.ad and has been working for the organization since October 2006.

<おわり>

ーーーーー

昨年の10月に開催された Hadoop World の Welcome レセプションで、あるスパム・フィルタにおける処理時間が 9時間から 1時間弱に短縮されたという話を聞きました。 また、以下のリファレンスを参照していただければ、Yahoo や VISA における Hadoop の効果は明白です。ただし、これまでに確認されている事例では、結果としての数値が紹介されているだけで、この nugg.ad のような途中経過までも説明するものは無かったと思います。その意味で、とても有益な資料になるはずです。 すばらしい情報を提供してくれた、Richard Hutton さんと Cloudera に拍手です。 ーーー A.C.

<関連>
Hadoop World Report:優良企業はなぜ Hadoop に走るのか
Hadoopが秘める可能性:オンプレミスでもクラウドでも使えるプラットフォームの魅力

Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例_1
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例_2
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例_3
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例_4

Tagged with: , , , , , ,

Hadoop: Cloudera が CDH2 のプロダクションと、CDH3 の Beta1 をリリース

Posted in Cloudera, Hadoop by Agile Cat on March 25, 2010

Hadoop: CDH2 is released / CDH3 Beta 1 Now Available
http://www.cloudera.com/blog/2010/03/cdh2-is-released/
http://www.cloudera.com/blog/2010/03/cdh3-beta1-now-available/

Cloudera

昨年の秋最初のアナウンスがあった、Apache Hadoop 0.20 ベースの CDH2 がオフシャルにリリースされたとのことです。 Apache Hadoop コミュニティがバグ・フィックスなどで頑張り、機能が改善されたと書かれています。 CDH2 のリリースノートは、ココです。

さらにですが、CDH3 の Beta 1 も同時にリリースされまた。 こちらも、基本的に Apache Hadoop 0.20 がベースですが、信頼性とパフォーマンスが改善された Pig パッケージと、Apache の最新リリースに基づいた Hive のパッケージが含まれるとのことです。また、HBaseZookkeper が contrib repository から first class packages に昇格し、Yahoo! からのセキュリティに関するコントリビューションも含まれるようです。

ーーーーーー

先週と、今週と、Cloudera からのアナウンスが目白押しですね。 あの人数で、ほんと 頑張っていますね。 ーーー A.C.

<関連>
カテゴリ Cloudera:http://agilecat.wordpress.com/category/cloudera/
カテゴリ Hadoop:http://agilecat.wordpress.com/category/hadoop/

 

Tagged with: , , , ,
%d bloggers like this: