Agile Cat — in the cloud

Redshift により データ・ウェアハウスの魔法を解く:James Hamilton

Posted in .Selected, Amazon, Data Warehousing, James Hamilton by Agile Cat on December 4, 2012

Redshift: Data Warehousing at Scale in the Cloud

Wednesday, November 28, 2012

_ perspectives

I’ve worked in or near the database engine world for more than 25 years. And, ironically, every company I’ve ever worked at has been working on a massive-scale, parallel, clustered RDBMS system. The earliest variant was IBM DB2 Parallel Edition released in the mid-90s. It’s now called the Database Partitioning Feature.

私の 25年以上にもおよぶキャリアは、データベース・エンジンの世界で、あるいは、その周辺で培われてきた。 そして、皮肉なことに、私が働いてきたすべての企業が、大規模スケール/パラレル/クラスター RDBMS システムに取り組んでいる。 最も初期の派生物は、90代半ばにリリースされた、IBM DB2 Parallel Edition であった。 いまでは、Database Partitioning Feature と呼ばれているものである。

Massive, multi-node parallelism is the only way to scale a relational database system so these systems can be incredibly important. Very high-scale MapReduce systems are an excellent alternative for many workloads. But some customers and workloads want the flexibility and power of being able to run ad hoc SQL queries against petabyte sized databases. These are the workloads targeted by massive, multi-node relational database clusters and there are now many solutions out there with Oracle RAC being perhaps the most well-known but there are many others including Vertica, GreenPlum, Aster Data, ParAccel, Netezza, and Teradata.

大容量のマルチノード並列方式は、スケーラブルな・リレーショナル・データベースシステムを実現する唯一の方法であるため、それらのシステムは、きわめて重要なものとなり得る。 もちろん、大規模スケールの MapReduce システムは、大量のワークロードを処理するという意味で、素晴らしい対案となる。 しかし、いくつかの顧客とワークロードは、ペタバイト・サイズのデータベースではなく、アドホックに SQL クエリーを実行するための、柔軟性と機能を必要とする。そこには、大容量マルチノードのリレーショナル・データベース・クラスターが、目標として定めたワークロードがある。そして、最も有名なのは Oracle RAC だとも思われるが、VerticaGreenPlumAster DataParAccelNetezzaTeradata などを含む、多様なソリューションも提供されている。

What’s common across all these products is that big databases are very expensive. Today, that is changing with the release of Amazon Redshift. It’s a relational, column-oriented, compressed, shared nothing, fully managed, cloud hosted, data warehouse. Each node can store up to 16TB of compressed data and up to 100 nodes are supported in a single cluster.

それら、すべてのプロダクトに共通する問題は、大規模なデータベースが、とても高価であるということだ。 しかし、いま、Amazon Redshift のリリースにより、それが変化している。 それは何かということであれば、リレーショナルであり、また、カラム指向で、圧縮機能を持ち、シェアード・ナッシングで、フル・マネージに対応する、クラウドにホストにされたデータ・ウエアハウスとなる。 それぞれのノードは、最大で 16 TB の圧縮データをストアすることが可能であり、また、最大で 100ノードが、シングル・クラスター内でサポートされる。

Amazon Redshift manages all the work needed to set up, operate, and scale a data warehouse cluster, from provisioning capacity to monitoring and backing up the cluster, to applying patches and upgrades. Scaling a cluster to improve performance or increase capacity is simple and incurs no downtime. The service continuously monitors the health of the cluster and automatically replaces any component, if needed.

Amazon Redshift は、データ・ウエアハウス・クラスターの、設定/運用/スケールに必要な、すべての作業を管理する。それは、クラスターのモニタリングとバックアップのためのキャパシティ・プロビジョニングから、パッチとアップグレードの適用にまで至る。 パフォーの改善と容量を増大するための、クラスターのスケーリングは、シンプルでありダウンタイムを引き起こさない。 このサービスでは、対象となるクラスターの健康状態が継続的にモニターされ、また、あらゆるコンポーネントの置き換えであっても、必要に応じて自動的に処理される。

The core node on which the Redshift clusters are build, includes 24 disk drives with an aggregate capacity of 16TB of local storage. Each node has 16 virtual cores and 120 Gig of memory and is connected via a high speed 10Gbps, non-blocking network. This a meaty core node and Redshift supports up to 100 of these in a single cluster.

それそれの Redshift クラスター上のコア・ノードは、24 台のディスク・ドライブを取り込み、16TB のローカル・ストレージの容量をアグリゲートしていく。 それぞれのノードは、16 の仮想コアと 120GB のメモリを持ち、また、10 Gbps/non-blocking の高速ネットワークに接続される。 Redshift はシングル・クラスター内で、このリッチなコア・ノードを、最大で 100 までサポートする。

There are many pricing options available (see for more detail) but the most favorable comes in at only $999 per TB per year. I find it amazing to think of having the services of an enterprise scale data warehouse for under a thousand dollars by terabyte per year. And, this is a fully managed system so much of the administrative load is take care of by Amazon Web Services.

数多く価格オプションが提供されているが(詳細については を参照)、TB を年に $999 だけで利用するパターンが、最も推奨できる。 私が驚いたのは、年に $1000 もかけずに、エンタープライズ・スケール向けの、TB データ・ウエアハウス・サービスが実現されることだ。 そして、フル・マネージド・システムが提供されるため、アドミニストレータが対応すべき大半の負荷が、Amazon Web Services により処理されていく。

Service highlights from:

以下の各項目は、AWS 日本語サイトにアップされると思います:

Fast and Powerful – Amazon Redshift uses a variety to innovations to obtain very high query performance on datasets ranging in size from hundreds of gigabytes to a petabyte or more. First, it uses columnar storage and data compression to reduce the amount of IO needed to perform queries. Second, it runs on hardware that is optimized for data warehousing, with local attached storage and 10GigE network connections between nodes. Finally, it has a massively parallel processing (MPP) architecture, which enables you to scale up or down, without downtime, as your performance and storage needs change.

You have a choice of two node types when provisioning your own cluster, an extra large node (XL) with 2TB of compressed storage or an eight extra large node (8XL) with 16TB of compressed storage. You can start with a single XL node and scale up to a 100 node eight extra large cluster. XL clusters can contain 1 to 32 nodes while 8XL clusters can contain 2 to 100 nodes.

Scalable – With a few clicks of the AWS Management Console or a simple API call, you can easily scale the number of nodes in your data warehouse to improve performance or increase capacity, without incurring downtime. Amazon Redshift enables you to start with a single 2TB XL node and scale up to a hundred 16TB 8XL nodes for 1.6PB of compressed user data. Resize functionality is not available during the limited preview but will be available when the service launches.

Inexpensive – You pay very low rates and only for the resources you actually provision. You benefit from the option of On-Demand pricing with no up-front or long-term commitments, or even lower rates via our reserved pricing option. On-demand pricing starts at just $0.85 per hour for a two terabyte data warehouse, scaling linearly up to a petabyte and more. Reserved Instance pricing lowers the effective price to $0.228 per hour, under $1,000 per terabyte per year.

Fully Managed – Amazon Redshift manages all the work needed to set up, operate, and scale a data warehouse, from provisioning capacity to monitoring and backing up the cluster, and to applying patches and upgrades. By handling all these time consuming, labor-intensive tasks, Amazon Redshift frees you up to focus on your data and business insights.

Secure – Amazon Redshift provides a number of mechanisms to secure your data warehouse cluster. It currently supports SSL to encrypt data in transit, includes web service interfaces to configure firewall settings that control network access to your data warehouse, and enables you to create users within your data warehouse cluster. When the service launches, we plan to support encrypting data at rest and Amazon Virtual Private Cloud (Amazon VPC).

Reliable – Amazon Redshift has multiple features that enhance the reliability of your data warehouse cluster. All data written to a node in your cluster is automatically replicated to other nodes within the cluster and all data is continuously backed up to Amazon S3. Amazon Redshift continuously monitors the health of the cluster and automatically replaces any component, as necessary.

Compatible – Amazon Redshift is certified by Jaspersoft and Microstrategy, with additional business intelligence tools coming soon. You can connect your SQL client or business intelligence tool to your Amazon Redshift data warehouse cluster using standard PostgreSQL JBDBC or ODBC drivers.

Designed for use with other AWS Services – Amazon Redshift is integrated with other AWS services and has built in commands to load data in parallel to each node from Amazon Simple Storage Service (S3) and Amazon DynamoDB, with support for Amazon Relational Database Service and Amazon Elastic MapReduce coming soon.

Petabyte-scale data warehouses no longer need command retail prices of upwards $80,000 per core. You don’t have to negotiate an enterprise deal and work hard to get the 60 to 80% discount that always seems magically possible in the enterprise software world. You don’t even have to hire a team of administrators. Just load the data and get going. Nice to see.

ペタ・バイト・スケールのデータ・ウエアハウスにおいて、コアあたり $80,000 を上回るような価格戦略を、神経を使って使いこなす必要は、もはや無くなった。エンタープライズに対して、60%~80% のディスカウント価格を提供するという、無意味な努力など、もう、不要になったのだ。つまり、エンタープライズ・ソフトウェアの世界に、常に潜んでいた魔法が解けるのである。そして、アドミニストレータ・チームを雇うことさえ不要になる。 単純にデータをロードして、それを動かすだけで良いのだ。 素晴らしい、光景じゃないか。


James Hamilton
b: /


imageついに、AWS が、ここまで攻め込んできましたね。まぁ、スパコン(CC2)まであるのですから、何でもアリなのだと思いますが、データ・ウエアハウスでも徹底的な価格破壊が行われるのでしょう。 たしか、2010年から 2011年にかけて、数多くのデータ・ウエアハウスが垂直統合されたと記憶していますが、それもこれも、Amazon を怖れての事だったのかも知れませんね。image



James Hamilton 特集
EMC は新規のアプライアンスを武器に、Teradata と勝負、Oracle と勝負!
IBM が Netezza を $1.7 billion で買収と発表
Teradata と Cloudera が Hadoop で提携!
HP が Dell の 3割増をオファー – エスカレートする 3PAR 争奪戦
Cloudera と Netezza による、Hadoop の商用アプライアンスとは?
【速報】EMC も、ついにクラウドへ本格参入?

Big Data – だれが、どこで、使うのか?

Posted in Big Data, Parallel by Agile Cat on December 17, 2010

Big Data: How are People Using it?
By Dick Weisinger, on December 16th, 2010


The ability to analyze “big data” or huge data sets efficiently has led many to predict that we are on the verge on being able to make huge breakthroughs in understanding science, society and business.  At a recent conference on “Big Data” sponsored by Aster Data, attendees were asked what type of “Big Data” plans they were considering.

Big Data あるいは膨大なデータセットを分析する能力が、科学/社会/経済の理解において強烈なブレークスルーをもたらす臨界点へと向けて、私たちを効果的に導いている。  Aster Data が後援する、直近の Bid Data カンファレンスでは、どのようなタイプの Big Data を想定して、計画を立てるべきかという質問が相次いだ。

Responses ranged across the following areas:

  • Investigation of new market opportunities.  Attendees were looking for the next “Big Data insight”
  • Gain an understanding of behavioral purchasing data.
  • Understanding data collected from social media and social networking
  • Trying to understand how the data collected could be monetized.
  • Fraud reduction and risk profiling.   Trying to generate a profile or behavior information that can identify good and bad customers.


  • 新しいビジネス機会の調査。 出席者たちは、次の "Big Data insight” を探している。
  • 購入行動データに関する、より深い理解。
  • ソーシャル・メディアとソーシャル・ネットワークから収集されたデータの理解。
  • 収集されたデータをビジネスにつなげる方式への理解。
  • 不正の防止と、リスクのプロファイル化。 優良/悪質な顧客を見極めるための、プロファイルと行動情報の生成。

So while there is much excitement about what hidden insights might be uncovered by analyzing “Big Data”, everything isn’t rosy just yet.  Many of the attendees expressed frustration.  While technology is barreling forward rapidly, there still are hurdles to be jumped in order to be successful in analyzing Big Data.  Problems that attendees mentioned include:

Big Data の分析により、未知の事柄が明らかになるかもしれない。 しかし、すべてがバラ色ではなく、興奮ばかりしているわけにはいかない。ここでは、多くの出席者から、フラストレーションが表明された。  テクノロジーは猛スピードで突き進むが、Big Data の分析を成功へと導くためには、乗り越えなければならない障害がある。  出席者が言及した問題点には、以下の事柄が含まれる:

  • 20 percent said that complex processing of large data sets can be extremely slow.
  • 30 percent said that being able to scale up their current systems to be able to handle Big Data sets can be complex and difficult.

  • 大規模データセットに関する複雑な処理は、時間がかかりすぎる – 20% の参加者
  • Big Data を取り扱うように、現行のシステムをスケールアップすることは、複雑で困難である – 30% の参加者

Sharmila Mulligan, executive vice president at Aster Data, said that the “need for deep analytical processing that when done right, present new opportunities for businesses is also where most stumble.”

Aster Data 筆頭副社長 である Sharmila Mulligan は、『 適切に行われるときに、深層にまで至る分析処理が達成されるが、新しいビジネス・チャンスへの取り組みは、大部分がつまずくところでもある 』 と発言している。


最後のマトメのところですが、急がば回れみたいなことで良いのでしょうかね? ちょっと自信がありませんので、ご指摘などありましたら、よろしくお願いします。

この Aster Data って、どこかで聞いたことがある名前だったのですが、昨年の Hadoop World と同じ会場でカンファレンスがあり、間違って入り込んでしまったことを思い出しました orz   でも、面白かったので、コーヒーなんぞをご馳走になりながら、しばらく話を聞いてしまいました :)

こんなカンファレンスが、日本でも行われるようになるとイイですよねぇ~~~ A.C.


ついに Apple も、Hadoop ユーザーになるようだ!
Facebook のメッセージング・インフラを、再構築する立役者は HBase だ!
実行中にノードを追加できる、新しい Elastic MapReduce とは?
MapReduce と Hadoop の将来について
Hadoop ベンダーたちは、データに苦しむ銀行から利益を得られるのか?
スループット指向のアーキテクチャ- Amazon EC2 で GPU を正しく使うために
イベンチュアル・コンシステンシーはお好き? by James Hamilton
Microsoft の Modeling the World

%d bloggers like this: