Agile Cat — in the cloud

Cassandra の 2010 年を、Digg への反論も含めて振り返る by Jonathan Ellis

Posted in NoSQL by Agile Cat on March 1, 2011

Apache Cassandra: 2010 in review
Tuesday, January 04, 2011
Posted by Jonathan Ellis at
11:53 AM
http://spyced.blogspot.com/2011/01/apache-cassandra-2010-in-review.html

ーーーーー

Riptano の立ち上げで忙しかったのか、すっかりと更新の途絶えてしまった Spyced ですが、1月に久々のポストがあったことを知りました。 もちろん Jonathan Ellis さんからで、お元気そうで何よりという感じです。 Code、Community、Controversy という三部構成になってますが、3つ目の Controversy は、議論とか物議という意味で、Digg での問題について解説しています。 あの件は、とても大きなダメージなったはずですが、少なくとも Cassandra は、そこから回復しているように思えます。 ーーー __AC Stamp 2

ーーーーー

My Photo

In 2010, Apache Cassandra increased its momentum as the leading scalable database. Here is a summary of the notable activity in three areas: code, community and controversy. As always, comments are welcome.

2010年において、Apache Cassandra はスケーラブルなデータベースをリードする存在として勢いを増してきた。 ここでは、注目すべきアクティビティについて、3つのエリアである Code/Community/Controversy に整理しながら概説していく。 いつもの通り、コメントは大歓迎だ。

Code

2010 started with the release of Cassandra 0.5, followed by 0.6 and graduation from the ASF incubator a few months later. Seven more stable releases of 0.6 proceeded, adding many features to improve operations in response to feedback from production users.

2010 年は Cassandra 0.5 のリリースから始まったが、それに 0.6 が続き、また、その数カ月後に ASF インキュベータから卒業することになった。 0.6 のリリースでは、安定化のために 7つのポイントが進化し、運用環境のユーザーからのフィードバックに応えるかたちで、数多くの機能が追加され、オペレーションが改善された。

0.7 adds highly anticipated features like column value indexes, live schema updates, more efficient cluster expansion, and more control over replication, but didn’t quite make it into 2010, with rc4 released on new year’s 2011.

0.7 では、 column value indexeslive schema updates/efficient cluster expansion/more control over replication といった期待どおりの機能が加えられたが、2010年には完了せず、2011年に入ってから、rc4 というかたちでリリースされた

We also committed the distributed counters patchset, begun at Digg and enhanced by Twitter for their real-time analytics product. Notable as the most-involved feature discussion to date, distributed counters started with a vector clock approach, but switched to a new design by Kelvin Kakugawa after we realized vector clocks were a dead end for anything but the trivial case of monotonic-increments-by-one.

さらに、私たちは、Digg で始まり、Twitter のリアルタイム分析プロダクトで拡張された、distributed counters patchset にも責任を持つことになった。現時点において、もっとも時間を費やして議論されたものとして、vector clock approach を用いて開始される distributed counters に注目すべきだが、vector clock が自身で単調にインクリメントすることを除いて、すでに手詰まりとなっていることに気づいた後、Kelvin Kakugawa新たにデザインすることになった。

One of the biggest trends was increasing activity around Cassandra as well as in the core database itself. 2010 saw Hadoop map/reduce integration, as well as Pig support and apatch for Hive.

Cassandra に関連するアクティビティを増やすだけではなく、そのコア・データベース自身のアクティビティも増やしていくことが、最も大きな流れとなった。 2010 年に行われた Hadoop Map/Rerduce とのインテグレーションと同様に、Pig のサポートと、Hive へのパッチが推進された。

We also saw Lucandra, which implements a Cassandra back end for Lucene and is used in several high volume production sites, grow up into Solandra, embedding Solr and Cassandra in the same JVM for even more performance.

さらに、Lucene のバックエンドとして Cassandra を実装する、Lucandra にも注目した。それは、Solandra で成長する、いくつかのハイ・ボリューム実運用サイトで用いられ、さらなるパフォーマンスのために、 Solr と Cassandra を同一の JVM にエンベッドするものである。

Cassandra

Community

Cassandra hit its stride in 2010, starting with graduation from the ASF incubator in April. 2010 saw 1025 tickets resolved, nearly twice as many compared to 2009 (565).

2010年 4月に、Cassandra は ASF インキュベーションから卒業し、その歩みを始めた。 また、2010 年には 1025 枚のチケットが解決されたが、それは、2009年(565)の 約 2倍近に匹敵するものだ。

Like many Apache projects, Cassandra has a relatively small set of committers, but a much larger group of contributors. In 2010 Cassandra passed over 100 people who have contributed at least one patch. Release manager Eric Evans put together a great way to visual this with a Code Swarm video of Cassandra development.

数多くの Apache プロジェクトと同様に、Cassandra のグループは、少数のコミッターと多数のコントリビューターにより構成されている。 2010年に Cassandra は、少なくとも 1つのパッチをコントリビュートした、100名以上の人々の手を通過した。 リリース・マネージャーである Eric Evans は、Cassandra 開発に関する Code Swarm ビデオを用いて、そのプロセスをビジュアライズするという、素晴らしい方式を作り上げた。

I started Riptano with Matt Pfeil in April to provide professional products and services around Cassandra. In October, we announced funding from Lightspeed and Sequoia. From May to December, we conducted eleven Cassandra training events in eight months, and twice that many private classes on-site with customers.

私に関しては、Cassandra に関連するプロフェッショナルなプロダクトとサービスを提供するために、Matt Pfeil と一緒になって、4月に Riptano を立ち上げた。 10月には、Lightspeed と Sequoia からのファンドについて発表した。 5月から 12月までの 8ヶ月間において、11回の Cassandra のトレーニング・イベントを開催し、また、顧客のオンサイトでは、その 2倍のプライベート・クラスを開催した。

Riptano is now up to 25 employees, with offices in the San Francisco bay area, Austin, and New York, and engineers working remotely in San Antonio, France, and Belarus.

いまでは、Riptano は、San Francisco Bay Area と、 Austin、New York にオフィスを構え、25人の従業員を有している。そして、エンジニアたちは、San Antonio と、France、Belarus においてリモートで作業している。

In August, Riptano and Rackspace organized a very successful inaugural Cassandra Summit, with about 200 attendees (videos available), followed by almost a full track at ApacheCon in November. Cassandra was also represented at many other conferences onmultiple subjects, for several languages, and continents.

8月には、Riptano と Rackspace は共同で Cassandra Summit(ビデオ)を開催し、200名の参加者を集めるという大成功をおさめた。それに続いて、11月の ApacheCon では、Summit のほぼフル・トラックを再演した。 さらに Cassandra は、いくつかの国々に置いて、数多くのテーマを提供するカンファレンスを開催した。

Controversy

Cassandra got a lot of negative publicity when Kevin Rose blamed Cassandra for Digg v4′s teething problems. However, there was no deluge of bug reports coming out of Digg’s Cassandra team, and Digg engineers Arin Sarkissian and Chris Goffinet (now working on Cassandra for Twitter) got on Quora to refute the idea that Cassandra was at fault:

Digg v4 の初期問題について Kevin Rose が Cassandra の責を追求したときには、多くのネガティブ効果が生じてしまった。 しかし、Digg の Cassandra チームから、大量のバグ・レポートが送られることはなかった。そして、Digg のエンジニアである Arin Sarkissian と Chris Goffinet(Cassandra for Twitter チーム)が Quora 上にで、Cassandra が間違っていたという考え方に対して反論している

The whole "Cassandra to blame" thing is 100% a result of folks clinging on to the NoSQL vs SQL thing. It’s a red herring.

その「 Cassandra への批判 」は、「 NoSQL 対 SQL 」 に執着する人々の視点で、100% が埋め尽くされている。 つまり、目を逸らすためのオトリにされたわけだ。

The new version of Digg has a whole new architecture with a bunch of technologies involved. Problem is, over the last few months or so the only technological change we mentioned (blogged about etc) was Cassandra. That made it pretty easy for folks to cling on to it as the "problem".

この Digg の新しいバージョンは、いくつかのテクノロジーを組み合わせた、まったく新しいアーキテクチャを持っている。 問題なのは、この数カ月にわたって、私たちが(ブログなどで)言及した唯一の技術的な変更点が、Cassandra であったことだ。そのことが、「問題」として指摘しやすい状況を作ってしまった。

Meanwhile, Digg competitor Reddit has continued migrating to Cassandra, crediting it with enabling their 3x traffic growth in 2010.

その一方で、Digg 競争相手である Reddit は、Cassandra への移行を継続しており、2010年に 3倍のトラフィックに成長したサービスで、Cassandra が機能していることを認めている。

More importantly, 2010 saw dozens of new Cassandra deployments, including a new contender for the largest-cluster crown when Digital Reasoning announced a 400-node cluster for the US government.

それより重要なことは、2010年に、いくつかの新規 Cassandra ディプロイメントが実現したことだ。そこには、Digital Reasoning が米国政府用の 400ノード・クラスタを発表したとき、その最大クラスタの新しい候補として、選ばれたことも含まれる。

We look forward to another great year in 2011!

ーーーーー

先日に、『 Cassandra の Riptano は、DataStax に買収されてしまったの? 』というタイトルでポストしましたが、今回 ご紹介する Spyced のポストの直後に、DataStax に社名変更されたということなのでしょうね。ーーー __AC Stamp 2

ーーーーー

<関連>
Cassandra はアメリカ政府に食い込み、Amazon EC2 でも利用できる
Cassandra Summit 2010 でのスライドとビデオが公開
Real World NoSQL シリーズ – Openwave における Cassandra
NoSQL のユースケースを一般論と具体論で整理する
Windows Azure チームは、どのような興味を Cassandra に持っているのか?

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: