Agile Cat — in the cloud

Cassandra ライブ情報がテンコ盛り – Jonathan Ellis @ Rackspace

Posted in NoSQL by Agile Cat on March 26, 2010

Cassandra in action
Jonathan Ellis
Wednesday, March 24, 2010


There’s been a lot of new articles about Cassandra deployments in the past month, enough that I thought it would be useful to summarize in a post.

この 1ヶ月の間に、Cassandra のディプロイメントについて、このポストで要約するに値する、数多くの記事があった。

Ryan King explained in an interview with Alex Popescu why Twitter is moving to Cassandra for tweet storage, and why they selected Cassandra over the alternatives. My experience is that the more someone understands large systems and the problems you can run into with them from an operational standpoint, the more likely they are to choose Cassandra when doing this kind of evaluation. Ryan’s list of criteria is worth checking out.

この 1ヶ月の間に、Cassandra のディプロイメントについて、このポストで要約するに値する、数多くの記事があった。 Ryan King は Alex Popescu のインタビューにおいて、Twitter が tweet ストレージのために、Cassandra へ移行したわけと、その選択理由を説明している。 大規模なシステムや問題を、より多くの人々が運用面での視点から理解すると、この種のテクノロジーを評価をする際に、Cassandra を選ぶ可能性が高まるといのが、私の経験である。Ryan が提供する、基準に関するチェック・リストには価値がある。

Digg followed up their earlier announcement that they had taken part of their site live on Cassandra with another saying that they’ve now "reimplemented most of Digg’s functionality using Cassandra as our primary datastore." Digg engineer Ian Eure also gave some more details on Digg’s cassandra data model in a Hacker News thread.

Digg は、Cassandra に関する以前のアナウンスメントをフォローアップした。それは、彼らのサイトで Cassandra などが運用されているというものだ。言い方を変えると、Digg における大半の機能を、Cassandra を主要なデータストアとして用いる方式へ向けて、再実装していることになる。 Digg のエンジニアイアンである Ian Eure は、Hacker News スレッドで、Digg の Cassandra データ・モデルについて詳細を提供している。

Om Malik quoted extensively from the Digg announcement and from Rackspace engineer Stu Hood, who explained Cassandra’s appeal: "Over the Bigtable clones, Cassandra has huge high-availability advantages, and no single point of failure. When compared to the Dynamo adherents, Cassandra has the advantage of a more advanced datamodel, allowing for a single row to contain billions of column/value pairs: enough to fill a machine. You also get efficient range queries for the top level key, and even within your values."

Om Malik は、この Digg の発表と、Rackspace のエンジニア Stu Hood のコメントを基に、Chassandra の周辺についてまとめている。そして、Cassandra は Bigtable クローン上に構築されるものであるが、高可用性とシングル・フェイル・ポイントの排除というアドバンテージを持つと説明している。また、 Dynamo との比較において、Cassandra は、さらに進歩したデータモデルというアドバンテージを持ち、マシンを埋め尽くすほどの何十億という column/value ペアの、シングル Row への取り込みを実現する。 そして、トップレベルのキーから、個別の値にいたるまで、効果的なレンジでのクエリーを取得すると説明している。

The Twitter and Digg news kicked off a lot of publicity, including a lot of "me too" articles but some interesting ones, including a highscalability post wondering if this was the end of the mysql + memcached era. If not quite yet the end, then the beginning of it. As Ian Eure from Digg said, "If you’re deploying memcache on top of your database, you’re inventing your own ad-hoc, difficult to maintain NoSQL system. Possibly the best commentary on this idea is Dare Obasanjo’s, who explained "Digg’s usage of Cassandra actually serves as a rebuttal to [an article claiming SQL scales just fine] since they couldn’t feasibly get what they want with either horizontal or vertical scaling of their relational database-based solution."

Twitter と Digg ニュースは、多数の Me Too を含む、大規模なパブリシティを生み出した。しかし、Highscalability を含む、いくつかの興味深いポストには、mysql+memcached 時代の終わりを匂わすものもあった。 それが、終わりを示すものでないなら、新しい始まりを示すのだろう。 Digg の Ian Eure は、データベース上に memcache を実装しているなら、独自のアドホックを考案しているのであり、NoSQL システムで維持していくことは困難だと言っている。 また、この件については、Dare Obasanjo のコメントが最適だとも発言している。そこでは、Digg における Cassandra の用法は、「SQL のスケールがちょうど良いと主張する記事」 への反論としての、現実的なサービスだと、Dare は発言していると言う。なぜなら、Digg においては、水平であろうが垂直であろうが、リレーショナル・データベースに基づくソリューションでは、現実的な答にならないからだ。

Reddit also migrated to Cassandra from memcachedb, in only 10 days, the fastest migration to Cassandra I’ve seen. More comments from the engineer doing the migration, ketralnis, in the reddit discussion thread.

Reddit においても、memcachedb から Cassandra への移行があった。それを 10日間で完了するのは、私が見た限りでは最速である。 この、Reddit のディスカッション・スレッドには、ketralnis たちを含むエンジニアからのコメントが掲載されている。

CloudKick blogged about how they use Cassandra for time series data, including a sketch of their data model. CloudKick migrated from PostgreSQL, skewering the theory you will sometimes see proffered that "only MySQL users are migrating to NoSQL, not people who use [my favorite vendor’s relational database]."

CloudKick は、自身のデータ・モデルのスケッチも含めて、時系列データに対して Cassandra を用いる方法をブログで説明している。 CloudKick は PostgreSQL から移行しており、MySQL ユーザーだけが NoSQL へ移行できるのであり、ベンダー系のリレーショナル・データベースからは不可能だという、ときおり目にするセオリーを酷評している。

Jake Luciani wrote about how Lucandra, the Cassandra Lucene back-end works, and how he’s using it to power the Twitter search app IMO, Lucandra is one of Cassandra’s killer apps.

Jake Luciani は Lucandra での事例に触れている。Cassandra は Lucene のバックエンドを担当しており、Twitter のサーチ・アプリケーションである にパワーを与えているという。 私の意見では、 Lucandra は Cassandra におけるキラー・ソフトウェアの 1つとなる。

The FightMyMonster team switched from HBase to Cassandra after concluding that "HBase is more suitable for data warehousing, and large scale data processing and analysis… and Cassandra is more suitable for real time transaction processing and the serving of interactive data." Dominic covers CAP, architecture considerations, benchmarks, map/reduce, and durability in explaining his conclusion.

FightMyMonster チームは、「HBase がデータウエア・ハウジングおよび、大規模データの処理と分析に最適であり、Cassandra はリアルタイム・トランザクションとインタラクティブ・データのサポートに最適」と結論付けた後に、 HBase から Cassandra へと移行している。Dominic の説明では、CAP および 、アーキテクチャの考察、ベンチマーク、Map/Reduce、耐久性がカバーされると結論づけられている。

Eric Peters gave a talk on Cassandra use at his company, Frugal Mechanic, at the Seattle Tech Startups Meetup. This was interesting not because Frugal Mechanic is a big name but because it’s not. I haven’t seen Eric’s name on the Cassandra mailing lists at all, but there he was deploying it and giving a talk on it, showing that Cassandra is starting to move beyond early adopters. (And, just maybe, that our documentation is improving. 🙂

Eric Peters は Seattle Tech Startups Meetup において、彼の Frugal Mechanic での Cassandra の利用について発言している。 興味深いのは、Frugal Mechanic が有名ではなく無名だからだ。 Cassandra びメーリング・リストで Eric の名前を見かけたことが無かったが、そのときには Cassandra をディプロイし、説明したのだ。 Cassandra がアーリー・アダプタの範囲を超え始めたのだ。 (そして、おそらく、私たちのドキュメントも改善されていはず、、、:)

Finally, Eric Florenzano has a live demo up now of Cassandra running a Twitter clone at, with source at github, as an example of how to use Cassandra’s data model. If you’re interested in the nuts and bolts of how to build an app on Cassandra, you should check it out.

最後になるが、Eric Florenzano の Twitter クローンである、 を紹介したい。 そのソースは github にあり、Cassandra でのデータ・モデルの使い方を示している。 もし、Cassandra 上でアプリケーションを作成する基本に興味があるなら、それをチェックするべきだ。


なんか、ブレークしちゃった感じですね、Cassandra は ーーー A.C.

Twitter が Cassandra を選んだ理由 — MyNoSQL (← これが、そもそもの発端です)
Digg が Cassandra を採用する理由 by John Quinn
High Scalability のホット・リンク集 : Cassandra@Twitter インタビューもあるよ!
Cassandra 分散データベースでの削除とは?
Cassandra プロジェクトと Rackspace
イベンチュアル・コンシステンシーはお好き? by James Hamilton

Comments Off on Cassandra ライブ情報がテンコ盛り – Jonathan Ellis @ Rackspace

%d bloggers like this: