Agile Cat — in the cloud

Real World NoSQL シリーズ – 4PB を処理する Trend Micro の HBase

Posted in Big Data, Hadoop, NoSQL by Agile Cat on February 3, 2011

Real World NoSQL: HBase at Trend Micro
By Guy Harrison
Jan. 27, 2011, 8:30am PDT
http://gigaom.com/cloud/real-world-nosql-hbase-at-trend-micro/

Edit Note: This is the first on a multi-part series of posts exploring the use cases for NoSQL deployments in the real world.

_ Gigaom

With all the excitement surrounding the relatively recent wave of non-relational – otherwise known as “NoSQL” – databases, it can be hard to separate the hype from the reality. There’s a lot of talk, but how much NoSQL action is there in the real world? In this series, we’ll take a look at some real-world NoSQL deployments.

ノン・リレーショナル、さもなければ「NoSQL」 データベースとして認識されている大きなウネリが、このところ様々な憶測をもたらしているが、そこから真実と虚構を切り分けるのは、難しい作業となる。 数多くの話題が提供されているが、現実の世界において、NoSQL への取り組みは、どれぐらいの件数になっているのか? このシリーズでは、現実の世界における、いくつかの NoSQL ディプロイメントについて注目していく。

alt

Trend Micro provides corporate computer security products, and maintains web reputation databases that allow intelligent detection of spam, phishing, or suspicious web sites. Maintenance of these databases requires processing massive amounts of log data from DNS and other Internet servers, accumulating at the rate of about four petabytes per year. New product offerings for Trend Micro required real-time analysis of exponentially growing data volumes. After evaluating a number of database alternatives – including Hypertable and Cassandra – Trend Micro settled on Apache Hbase as the core database of new elastic infrastructure.

Trend Micro は企業向けのセキュリティ・プロダクトを提供し、また、スパムやフィッシングなどの、不審な Web サイトをインテリジェントに検出するための、Web 評価データベースを維持している。 これらのデータベースを維持していくためには、DNS や各種インターネット・サーバーから得られる、大容量ログ・データの処理が必要となり、また、年間に 4ペタ・バイトのレートで蓄積することになる。 急激に増大してきたデータ量に対応するために、Trend Micro の新しいプロダクトは、リアルタイム解析を必要とする。 Hypertable や Cassandra を含む、数多くのデータベースにおける選択肢を評価した後に、Trend Micro が決定したいのは、新しく柔軟なインフラストラクチャのコア・データベースとして Apache HBase を使用することである。

hbase

Several years ago, Trend Micro adopted Hadoop – the increasingly ubiquitous, open-source implementation of Google’s MapReduce framework – to store and perform bulk processing of these data sets. However, Hadoop on its own doesn’t provide a data store that can support individually updatable data items; you can’t change a single data item within a raw Hadoop dataset without having to reprocess the entire set.

数年前のことだが、それらのデータセットをストアし、バルクでの処理を行なうために、Trend Micro は Hadoop を採用した。言うまでもなく、Hadoop とは、Google MapReduce フレームワークのオープンソース実装であり、また、各所で利用されているものでもある。しかし Hadoop は、それぞれのデータ・アイテムを、個別にアップデートすようなデータストアを提供していない。つまり、生の Hadoop データセット内において、1つのデータ・アイテムを変更する場合にも、データセット全体を再処理しなければならない。

HBase, a NoSQL database modelled from Google’s BigTable system, offers the row level access required by Trend Micro and – since it is part of the Hadoop ecosystem already established at Trend Micro – may seem a natural choice. However, Trend Micro evaluated other non-relational databases, including Cassandra and HyperTable. HBase was eventually chosen because it demonstrated an ability to handle the transaction rates required and because of its active development community. Trend Micro’s HBase solution is scheduled to go live in the first half of 2011.

HBase は、 Google の BigTable システムをモデルとして設計された NoSQL データベースであり、また、Trend Micro が必要とする Row レベルでのアクセスを提供する。そして、すでに Trend Micro 社内で確立されている Hadoop エコシステムの一部であるため、その選択は当然のことだと思われるだろう。 しかし、Trend Micro は、Cassandra や HyperTable を含む、その他のノン・リレーショナル・データベースを評価した。 そして HBase が、最終的に選択されたわけであるが、その理由としては、要求されるトランザクション・レートでの処理能力と、活発な開発コミュニティが挙げられる。Trens Micro における HBase ソリューションは、2011年の前半には実運用を開始する予定である。

As well as the index of web sites that forms the core of the reputation database, the system accepts event traces and activity logs from customer desktops accumulating at the rate of 5 billion items every day. According to Andy Purtell, senior architect at Trend Micro, a traditional relational system would have been hundreds of times more expensive than HBase – if it could have handled the load at all. As well as the massive insert rate, HBase’s flexible schema, which allows new attributes to be added without reorganizing the database, and its tight Hadoop integration were compelling.

評価データベースのコアを形成する、Web サイト・インデックスのケースと同様に、このシステムは、顧客のデスクトップから得られるイベント・トレースと、アクティビティ・ログを受け入れる。そして、1日あたり 50億アイテムのレートで、それらを蓄積していく。 Trend Micro のシニア・アーキテクトである Andy Purtell によると、従来からのリレーショナル・システムで、こうした負荷を処理できると想定しても、HBase と比較して数百倍の費用がかかるという。 HBase では、大量のインサートが可能になるだけではなく、その柔軟なスキーマにより、データベースを再編成することなく、新しい属性を付加できる。 そして更に、Hadoop との緊密なインテグレーションという、説得力のあるメリットが実現される。

Because HBase is part of the Hadoop ecosystem, Trend Micro programmers have a variety of tools available that are tightly integrated with HBase. Currently, developers at Trend Micro write data access routines directly in Java, but they are considering PIG – a scripting language for Hadoop – and the SQL-like HIVE system for more ad-hoc access.

HBase は、Hadoop エコ・システムの一部であるため、 Trend Micro のプログラマーたちは、HBase と緊密にインテグレートするための、各種ツールを持っている。 現時点において、Trend Micro のデベロッパーたちは、データ・アクセス・ルーチンを、Java を用いてダイレクトに記述している。 しかし、Hadoop 用のスクリプト言語である PIG と、アドホックなアクセスを実現するための、SQL ライクな Hive の利用が検討されている。

“I’m not that interested in the NoSQL vs. RDBMS debate,” Purtell says. “I’m more interested in finding the best tools to build a solution. For our application, HBase is faster and cheaper than the relational alternative.”

『 NoSQL 対 RDBMS という図式には興味が無い。 つまり、ソリューションを構築するための、最適なツールに興味があるだけだ。 私たちのアプリケーションにとって、HBase は、リレーショナルな選択肢よりも高速であり、また、安価である 』と、 Purtell は発言している。

Guy Harrison is a director of research and development at Quest Software, and has over 20 years of experience in database design, development, administration, and optimization. He can be found on the internet at www.guyharrison.net, on e-mail at guy.harrison@quest.com and is@guyharrison on twitter.

Related content from GigaOM Pro (sub req’d):

ーーーーー

Purtell さんの発言からは、現実的なツールとしての HBase への評価が読み取れます。 NoSQL も、ここまで来たのですね :)  Hadoop がスタンダードとなり、そのパートナーとしての HBase の評判が高まっていますが、たとえば Cassandra の方が適しているというケースもあるはずです。 そんなコンテンツも読めるとイイなぁと、この 『Real World NoSQL シリーズ 』には期待してしまいますね。 ーーー __AC Stamp 2

ーーーーー

<関連>
HBase 0.90.0 の正式リリースについて ・・・ 河野達也
Facebook の HBase は、毎月 1350億 メッセージを処理する!
Facebook のメッセージング・インフラを、再構築する立役者は HBase だ!

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: