Agile Cat — in the cloud

Amazon Elastic MapReduce のアップデート – 5TB オブジェクトにも対応

Posted in Amazon, Big Data, Hadoop by Agile Cat on January 14, 2011

Elastic MapReduce Updates – Hive, Multipart Upload, JDBC, Squirrel SQL
http://aws.typepad.com/aws/2011/01/elastic-mapreduce-updates-hive-multipart-upload-jdbc-squirrel-sql.html

Amazon

I have a number of Elastic MapReduce updates for you:

  • Support for S3′s Large Objects and Multipart Upload
  • Upgraded Hive Support
  • JDBC Drivers for Hive
  • A tutorial on the use of Squirrel SQL with Elastic MapReduce

Support for S3′s Large Objects and Multipart Upload

We recently introduced an important new feature for Amazon S3 — the ability to break a single object into chunks and to upload two or more of the chunks to S3 concurrently. Applications that make use of this feature enjoy quicker uploads with better error recovery and can upload objects up to 5 TB in size.

先日に紹介した、Amazon S3 の新しく重要な機能は、シングル・オブジェクトを複数のチャンクに切り分けた後に、それらを S3 へ向けて、コンカレントにアップロードするものである。 この方式を利用するアプリケーションは、これまでよりも優れたエラー・リカバリを用いて、5 TB までのオブジェクトを、迅速にアップロードできる。

Amazon Elastic MapReduce now supports this feature, but it is not enabled by default. Once it has been enabled, Elastic MapReduce can actually begin the upload process before the Hadoop task has finished. The combination of parallel uploads and an earlier start means that data-intensive applications will often finish more quickly.

この機能は、Amazon Elastic MapReduce でもサポートされているが、ディフォルの設定には入っていない。 ただし、それを ON にしておけば、Hadoop タスクが終了する前から、Elastic MapReduce によるアップロード・プロセスが開始される。そして、このパラレル・アップロードを、早めにスタートすることで、データ・インテンシブなアプリケーションは大半のケースにおいて、その処理を短時間で完了することになる。

big-hadoop-logo

In order to enable Multipart Upload to Amazon S3, you must add a new entry to your Hadoop configuration file. You can find complete information in the newest version of the Elastic MapReduce documentation. This feature is not enabled by default because your application becomes responsible for cleaning up after a failed upload. The AWS SDK for Java contains a helper method (AbortMultipartUploads) to simplify the cleanup process.

Amazon S3 へ向けた Multipart Upload を利用するためには、Hadoop コンフィグレーション・ファイルに対して、新しいエントリーを加える必要がある。詳細な情報に関しては、Elastic MapReduce documentation の最新バージョンで参照して欲しい。この機能は、アップロードが失敗した後のクリーニングを個々のアプリケーションに要求するため、ディフォルトでは OFF にされている。 このクリーニング・プロセスを簡単に処理するために、(AbortMultipartUploads) というヘルパー・メソッドが AWS SDK for Java に含まれている。

Upgraded Hive Support

You can now use Hive 0.7 with Elastic MapReduce. This version of Hive provides a number of new features including support for the HAVING clause, IN clause, and performance enhancements from local mode queries, improved column compression, and dynamic partitioning.

Hive 0.7 と Elastic MapReduce を組み合わせて、利用することが可能になった。 この Hive のバージョンでは、HAVING clause と IN clause のサポートが提供されるだけではなく、強化されたローカルモード・クエリーおよび、カラム圧縮、動的パーティショニングの改善などが実現されている。

You can also run versions 0.5 and 0.7 concurrently on the same cluster. You will need to use the Elastic MapReduce command-line tools to modify the default version of Hive for a particular job step.

なお、同一のクラスタ内で、Ver 0.5 と Ver 0.7 を、コンカレントに実行すること可能となっている。 特定のジョブ・ステップに関しては、Hive のデフォルト・バージョンを修正するために、Elastic MapReduce コマンドライン・ツールを使う必要が生じるだろう。

JDBC Drivers for Hive

We have released a set of JDBC drivers for Apache Hive that have been optimized for use with Elastic MapReduce. Separate builds of the drivers are available for versions 0.5 and 0.7 of Hive:

Apache Hive と組み合わせて用いる際に、Elastic MapReduce を最適化する JDBC ドライバーをリリースした。Hive の 0.5 と 0.7 に対応する、それぞれのビルドのドライバーが提供されている:

Squirrel SQL Tutorial

We have written a tutorial to show you how to use the open source Squirrel SQL client to connect to Elastic MapReduce using the new JDBC drivers. You will be able to query your data using a graphical query tool.

この新しいドライバーを用いる Elastic MapReduce と接続する、オープンソース Squirrel SQL client の用法を示す、tutorial を記述している。グラフィカルなクエリー・ツールを用いて、それぞれのデータをクエリーすることが可能となっている。

– Jeff;

ーーーーー

Amazon の素晴らしいところは、すべてにおいて、シッカリと整合性が取れていところです。 今回も、5TB の S3 シングル・オブジェクトをリリースしたら、その直後に Elastic MapReduce でも対応するといった、理にかなった戦略を見せつけてくれました。

ーーーーー

<関連>
実行中にノードを追加できる、新しい Elastic MapReduce とは?
Amazon S3 – 5 TB のシングル・オブジェクトは お好き?
Amazon EC2 で GPU を正しく使うために
GPGPU を用いたソートについて考える – James Hamilton

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: