Agile Cat — in the cloud

Container の調査: エンタープライズ DevOps を実現するためにも、コンテナは不可欠なテクノロジーとなる!

Posted in Container, DevOps, Enterprise Social, On Monday by agilecat.cloud on February 1, 2016
Containers: Enabling Build-Once-Run-Anywhere Applications
By Dick Weisinger – January 28th, 2016
http://formtek.com/blog/containers-enabling-build-once-run-anywhere-applications/
_ formtek
Containers are stand-alone lightweight packages that provide a isolated environment for an application and its configuration complete with all needed dependencies and libraries.  Containers are easily provisioned in real-time and typically use far fewer resources than virtual machines.
 
コンテナとは、それぞれのアプリケーションのための個別の環境を提供し、また、必要とされる全ての依存関係やライブラリを用いたコフィグレーションを実現する、スタンドアロンで軽量なパッケージのことである。そして、仮想マシンとの比較において、コンテナはリアルタイムでのプロビジョニングを、はるかに少ないリソースで実現するのが一般とされている。
 
Chagall_5Robert Stroud, Forrester analyst, wrote that “Containers are all the rage!… Container adoption is being driven by the promise that containers deliver the ability to build once and run anywhere, allowing increased server efficiency and scalability for technology managers.”
 
Forrester のアナリストである Robert Stroud は、「コンテナは、誰もが熱望するものである。そして、コンテナが約束する Build Once and Run Anywhere の能力により、その採用が促進されている。つまり、テクノロジーの管理者から見ると、サーバーを利用する際の、効率性とスケーラビリティが増大することになるのだ」と記している
 
The results of a survey by Robin Systems being announced today, found that:
 
今日 (1/28)、Robin Systems がアナウンスした調査結果の、以下の項目に注目したい:
 
  • Adoption of containers for running enterprise applications is growing.  More than half of enterprises are using containers in production or are experimenting with containers
  • Containers are being used for both stateless and stateful applications
  • Nearly three-quarters of respondents say that containers are the preferred method for running databases, and 40 percent say that it makes sense to use containers to run Big Data applications like Hadoop and Spark.
 
  • エンタープライズ・アプリケーションを実行する際の、コンテナの採用が増えきてきている。半分以上のエンタープライズが、実運用もしくは実験の環境で、コンテナを利用しているという。
  • コンテナは、ステートレスおよびステートフルのアプリケーションで利用できる。
  • 回答者の約 3/4 が、データベースを実行する際に、コンテナは好ましい手法になると述べている。また、回答者の 40% が、Hadoop や Spark といった、Big Data アプリケーションを運用する際に、コンテナの利用は理にかなっていると述べている。
 
Partha Seetala, chief technology officer at Robin, said that “containers are a natural platform for running performance sensitive applications such as databases, as they enable consolidation without compromising performance or predictability.  This aligns perfectly with our vision of providing enterprises a high-performance and elastic containerized platform for stateful and mission-critical applications.”
 
Robin の CTO である Partha Seetala は、「たとえばデータベースなどの、パフォーマンスを考慮しなければならないアプリケーションを実行する際に、コンテナは自然なプラットフォームとなる。予測の能力と性能を犠牲にすることなく、コンテナによる統合が実現されていくにつれて、このような見方が広まってきた。つまり、ステートフルでミッション・クリティカルなアプリケーションのための、高性能で弾力性のあるプラットフォームを、エンタープライズに提供することが不可欠になるという、私たちのビジョンと完全に一致しているのだ」と述べている。
 
ーーーーー
On Monday別件で、5 cloud computing predictions for 2016 という長いドキュメントを訳したのですが、その中でも、エンタープライズにおけるコンテナの利用が、今年のトレンドになると解説されていました。つまり、今年はエンタープライズも、クラウド・ネイティ・ブアプリケーションに突入すると予測しているのですが、そうなるとアップデートのサイクルが、年に数回というレベルから、日に数回というレベルに加速していくと述べているのです。この Dick Weisinger さんのポストでも、コンテナの効率が指摘されていますが、大きく変化していく開発/運用の形態を前提に考えると、その重要性がさらに強く感じられます。 つまり、DevOps にとって、コンテナが不可欠なのです。 _AC Stamp
ーーーーー
<関連>
Business Disruption の調査: すべての企業を破壊していく5つの圧力とは?
Enterprise の調査: クラウド効果により、エンタープライズ・アプリが中小企業に舞い降りてきた
AI の調査: Facebook の 人工知能 について、Mark Zuckerberg は 何を考える?
IoT の調査: この時代に生まれたなら、マック・バーガーの累計表示も頓挫しなかったはずだ!
Social Media の調査: ヘルスケア・ビジネスと、ユーザー接触と、コンプライアンス
 

Comments Off on Container の調査: エンタープライズ DevOps を実現するためにも、コンテナは不可欠なテクノロジーとなる!

Data Warehousing の調査: あの Bob Muglia が率いる Snowflake が、Azure と AWS にガチンコ勝負を挑む

Posted in Amazon, Big Data, Data Warehousing, IoT, Microsoft, On Monday by agilecat.cloud on July 6, 2015
Cloud-based Data Warehousing: Snowflake, Microsoft Azure and Amazon Redshift
Dick Weisinger – June 25th, 2015
http://formtek.com/blog/cloud-based-data-warehouse-snowflake-microsoft-azure-and-amazon-redshift/
_ formtek
Data warehousing traditionally required a company to extract and download huge volumes of data from various business software systems into a central repository for analysis.  The process to prep the data was slow which meant that the analysis was always run against data that was already partially stale.
 
データ·ウェアハウスの概念は、多様なビジネス·ソフトウェア·システムから、膨大なデータをダウンロードした後に、分析のためのセンター・リポジトリに展開するものとなる。 そして、それを実現する企業が、常に待ち望まれてきた領域である。つまり、データを準備するプロセスに時間がかかり、そこでの分析といっても、すでに意味を失ったデータまでが含まれてしまうという状況であった。
 
Vermeer_3But recently we’re seeing a new generation of data warehousing, one based on cloud computing.  This week saw the announcement of general availability of Snowflake.  Snowflake is a cloud-based data warehouse running on Amazon AWS.  The company is led by Microsoft veteran Bob Muglia.  Snowflake received $26 million in funding in October 2014 and has received another round of $45 million this past week.
 
しかし、最近は、クラウド·ベースのデータ・ウェアハウスが、新しい世代の到来を告げているようだ。今週は、Snowflake が、一般への提供が始まったと、アナウンスメントを発している。Snowflake とは、Amazon AWS 上で走る、クラウド・ベースのデータ・ウェアハウスのことである。そして、同社は、Microsoft で数々の実績を築きあげてきた、あの Bob Muglia により率いられている。なお、Snowflake は 2014年10月に $26 million のファンドを獲得し、さらに先週には、別のラウンドで $45 million の資金を得ている。
 
The Snowflake data warehouse is in direct competition with Microsoft’s Azure SQL Data Warehouse and Amazon’s Redshift cloud data warehouse.
 
もちろん、Snowfake のデータ・ウェアハウスは、Microsoft の Azure SQL Data Warehouse と Amazon の Redshift クラウド・データ・ウェアハウスに対して、ダイレクトなコンペを挑むものとなる。
 
What’s unique about Snowflake among the crowd of other recent data-focused startups is that it isn’t based on Hadoop and it was built from scratch with the cloud in mind. Features of Snowflake include:
 
このところ、データにフォーカスしたスタートアップたちが、かなりの勢いで登場してきているが、それらの中で Snowflake がユニークなのは、Hadoop をベースにしていない点である。つまり、クラウドを念頭に置いて、ゼロ・スタートで構築されているのだ。Snowflake の特徴とされる点は:
 
  • Native support for structured, machine-generated and semi-structured data
  • Scalability of data, workloads and users for multi-dimensional elasticity
  • Self tuning of data distribution and storage, and query execution
  • Security. Uses authentication, granular access control and data encryption
 
  • 構造化データ/機械生成データ/半構造化データを、ネイティブでサポート
  • データ/ワークロード/ユーザーをスケーラブルにすることで、多次元弾性を確保
  • データ配信/ストレージ/クエリー実行における、セルフ・チューニング
  • セキュリティ:ユーザー認証/緻密なアクセス・コントロール/データの暗号化
 
ーーーーー
On Monday誰が、何を、必要としているのかを、的確に理解している人が、自信作を世に問うというストーリーですね。 お久しぶりです、Bob Muglia さん。こうして、その後の活躍を知ることができて、とても嬉しい気分です。 そして、機械生成データをネイティブでサポートというのは、まさに IoT 時代のデータ・ウェアハウスという感じで、とてもイケていますよね。 Snowflake の活躍を期待しています! _AC Stamp
ーーーーー
<関連>
Bob Muglia の辞任は、Windows Azure にとって悲運の呪文に?
Bob Muglia 氏の Microsoft 離脱に関する報道
PDC と Silverlight について – Bob Muglia
Amazon の Redshift がスタート! 警戒する HP、IBM、Teradata、Oracle など・・・
Google の DataFlow は、MapReduce の正当な継承者になり得るのか?
 

Comments Off on Data Warehousing の調査: あの Bob Muglia が率いる Snowflake が、Azure と AWS にガチンコ勝負を挑む

Big Data の調査:Google の DataFlow は、MapReduce の正当な継承者になり得るのか?

Posted in Big Data, Google, Hadoop, MapReduce, On Monday by Agile Cat on July 28, 2014

Data Cloud/Big Data: Google Introduces DataFlow as Successor to MapReduce
http://wp.me/pwo1E-7HE

By Dick Weisinger – July 25, 2014
http://formtek.com/blog/data-cloudbig-data-google-introduces-dataflow-as-successor-to-mapreduce/

_ formtek

Do you feel left behind when it comes to technologies like Hadoop and MapReduce?  The great thing about the rapid speed that technology is changing and obsolescing is that if you miss one trend it’s not long before it’s been superseded by something else.  That lets you leapfrog directly into the newer technology without having wasted time and resources on the older technology.  Although you’ve got to jump in sometime!

Hadoop や MapReduce といったテクノロジーの話になると、時代に取り残されていると感じるだろうか? そして、それらのテクノロジーにおける素晴らしいスピードは、それ自身を変化させ、また、旧式化させていく。 したがって、何らかのトレンドを見逃したとしても、それほど時間を置くことなく、それらに取って代わるものを見出すことができる。 つまり、古いテクノロジーに時間と資源を浪費することなく、新しいテクノロジーへ向けて、ダイレクトにジャンプすることが可能なのだ。 どんなタイミングでジャンプするのかという、課題は残されるのだけどね!

 Google announced in June that they’ve long ago dropped MapReduce technologies like Hadoop.  And in fact they’re even going to open up their ‘better way’ of analyzing Big Data sets to the public.  It’s part of the Google Cloud Platform.  And the components of the new Google technology called DataFlow have cool names like Flume and MillWheel.

Google が 6月に発表したのは、ずっと以前に MapReduce(Hadoop の原型)テクノロジーを廃止していたことである。実際のところ、Big Data の分析を開かれたものにするために、Google としての Better Way に取り組もうとしているのだ。それは、Google Cloud Platform の一部も構成する。この、Google における新しいテクノロジー・コンポーネントは、Flume MillWheel のようにクールな、DataFlow という名前を与えられている。

The limitation of MapReduce strategies are that they are run as batch jobs.  To use MapReduce and standard Hadoop, all the data needs to already exist and to have been collected before the job begins.

MapReduce ストラテジーにおける制約は、バッチ・ジョブとして実行される点にある。MapReduce や標準的な Hadoop を使用するには、そのジョブの開始する前に、存在すべき全データが揃っていなくてはならない。

Greg DeMichillie, Director of Product Management, wrote that ”a decade ago, Google invented MapReduce to process massive data sets using distributed computing.  Since then, more devices and information require more capable analytics pipelines—though they are difficult to create and maintain.  Cloud Dataflow makes it easy for you to get actionable insights from your data while lowering operational costs without the hassles of deploying, maintaining or scaling infrastructure. You can use Cloud Dataflow for use cases like ETL, batch data processing and streaming analytics, and it will automatically optimize, deploy and manage the code and resources required.”

Director of Product Management である Greg DeMichillie は、「 Google は 10年前に発明した MapReduce は、分散コンピューティングを用いて、大規模なデータセットを処理するためのものである。それ以来、より高機能な分析パイプラインが、数多くのデバイスと情報のために必要とされてきたが、それらを開発/維持していくのは困難なことであった。Cloud Dataflow を用いれば、それらのデータから、実用的な洞察を容易に得られるようになる。 その一方で、インフラストラクチャのディプロイ/メンテナンス/スケーリングに煩わされることもなく、運用コストを削減できる。この Cloud Dataflow は、ETL/バッチ・データ処理/ストリーミング分析のようなユースケースに対して、用いることが可能になっている。そして、必要とされるコードとリソースを、自動的に最適化し、展開し、管理していく」と述べている

Brian Goldfarb, Google Cloud Platform head of marketing, said that with Big Data that “the program models are different. The technologies are different. It requires developers to learn a lot and manage a lot to make it happen.  It [Google DataFlow] is a fully managed service that lets you create data pipelines for ingesting, transforming and analyzing arbitrary amounts of data in both batch or streaming mode, using the same programming model.”

Google Cloud Platform の Head of Marketing である Brian Goldfarb は、Big Data との対比について、「 プログラム·モデルが異なり、また、テクノロジーも異なる。それを実現するためには、デベロッパーが必要とするのは、より多くのことを学び、より多くのことを管理することである。Google DataFlow は、バッチとストリーミングのモードにおいて、同じプログラミング・モデルを用いて、大量のデータを洞察/変換/分析する、データ・パイプラインを作成するための完全なマネージド・サービスである」と発言している

Urs Hölzle, senior vice president of technical infrastructure Google, said that ”Cloud Dataflow is the result of over a decade of experience in analytics.  It will run faster and scale better than pretty much any other system out there.”

Google の Senior VP of Technical Infrastructure である Urs Hölzle は、「 Cloud Dataflow は、分析における、私たちの 10年以上にもおよぶ経験から生まれたものである。 それは、他のシステムと比べて、高速で動作し、スケーリングにも優れている」と、述べている

ーーーーー

Todd Hoff さんの、「Google Instant では、リアルタイム検索のために MapReduce を排除!」というポストによると、Google が MapReduce を止めたのは 2010年ということになります。 それから、すでに、4年が経っているのですね。 Hoff さんは、「 Google の 3つの世代を振り返る – Batch, Warehouse, Instant 」という素晴らしい記事も書いています。 どちらも、読み応え 十分の記事ですが、よろしければ ど〜ぞ!

ーーーーー

<関連>

Cloud の調査:マイグレーションの期間は終わり、クラウド・ネイティブ・アプリの時代が始まる
SaaS and ECM の調査:クラウドは何も失わず、メリットだけを提供する
Cloud の調査: Docker によるアプリのパッケージ化は、大きな実績を残し始めている!
Cloud の調査: すべては Hybrid へと集約されていくのか?
Big Data の調査:未来においても Hadoop の支配は続くのか?

Comments Off on Big Data の調査:Google の DataFlow は、MapReduce の正当な継承者になり得るのか?

Big Data の調査:未来においても Hadoop の支配は続くのか?

Posted in Big Data, Hadoop, On Monday by Agile Cat on June 23, 2014

Big Data and Hadoop: Will Hadoop Continue to Dominate?
http://wp.me/pwo1E-7Ba

By Dick Weisinger – June 19, 2014
http://formtek.com/blog/big-data-and-hadoop-will-hadoop-continue-to-dominate/

_ formtek

When people talk Big Data today, often they’re talking about Hadoop, a technology first created by Doug Cutting in 2005.  Forrester Research says that “Hadoop is unstoppable as its open source roots grow wildly and deeply into enterprises.”

現時点において、人々が Big Data について語るとき、大半の場合、Hadoop の話になる。そのテクノロジーは2005年に Doug Cutting により作り出されたものである。Forrester Research は、「 オープンソースをルーツに持つものが成長し、エンタープライズにも強引に入り込んでくるにつれて、Hadoop も止められないものになる」と発言している

The following are just some of the vendors have built solutions around Hadoop: Amazon Web Services (AWS), Cloudera, Hortonworks, IBM, Intel, MapR Technologies, Microsoft, Pivotal Software, and Teradata.

この流れに従う形で、いくつかのベンダーが、Hadoop に関連するソリューションを構築している。 具体的には、Amazon Web Services (AWS)/Cloudera/Hortonworks/IBM/Intel/MapR Technologies/Microsoft/Pivotal Software/Teradata などの名前が挙げられる。

Analysts like Allied Market Research estimate that the Hadoop market will grow from $2.0 billion in 2013 to $50 billion in 2020.  The forecast includes software, hardware and services.  Today services represent about half of the Hadoop market.  But how realistic are estimates for a product market-size five-years out?

Allied Market Research などのアナリストたちは、Hadoop のマーケットが、2013年の $2.0 billion から、2020年は $50 billion にまで成長すると推定している。

そして、この予測には、ソフトウェア/ハードウェア/サービスが含まれる。 今日の Hadoop マーケットにおいては、サービスの割合が、全体の約半分を占めている。しかし、このマーケットの規模に関する、5年の推定値はというと、どの程度まで現実的なのだろうか?

Forrester ticks off the following four reasons as to why Hadoop is so hot today:

Forrester は、いまの Hadoop がホットな理由として、以下の 4つの理由を挙げている:

  • Provides lower cost storage
  • Based on open source innovation
  • Scales well
  • Provides businesses a way to squeeze profits from their data

Allied Market Research attributes the growth in Hadoop to a strong interest in managing structured and unstructured data and big data analytics.

また、Allied Market Research は、構造化/非構造化データと Big Data 分析の運用において、Hadoop が強い関心を引き寄せているとしている。

But Hadoop is a platform and forecasts about how Hadoop will grow don’t or can’t factor in the appearance of new competing technologies.  Estimates for how technologies will play out six years hence are very difficult to predict.  Consider the effect of the iPad and the fact that the first iPad was sold less than five years ago.   Things can change quickly.  When Big Data is considered as an umbrella category of technologies, it is almost certain to see huge growth between now and 2020, but whether Hadoop will continue to be the center of Big Data in 2020 is less clear.

しかし、Hadoop はプラットフォームであり、また、Hadoop の成長を予測するにあたり、それと競合する新しいテクノロジーを、考慮することは困難である。つまり、これから 6年の間に、どのようなテクノロジーが登場するかと予測することは、きわめて難しいことなのだ。考えて欲しいのは、iPad の出現による変化と、最初に iPad が販売されてから、まだ 5年も経ていないという事実である。すべては、素早く変化していく。Big Data が、テクノロジーの傘下にあると考えた場合、いまから 2020年までの間に、ほぼ確実に大きな成長が見られるだろう。しかし、2020年においても、Hadoop が Big Data の中心に居続けるかというと、明確な根拠があるわけでもない。

James Kobelius, IBM Big Data evangelist, says that “Hadoop’s footprint will continue to grow for some time in the big data arena, especially as the core open-source technologies evolve and enterprises invest more heavily in the technology.  However, Hadoop will be neither the dominant platform nor the architectural centerpiece of most enterprise big data deployments. But that also applies to any other big data platforms, current or emerging, that you might name.”

IBM の Big Data evangelist である James Kobelius は、「 Hadoop の実績は、Big Data という分野において、しばらくの間は成長していくだろう。 とりわけ、コア・オープンソース・テクノロジーが進化し、エンタープライズがテクノロジーに多額の投資を行う世界で、それは顕著になる。しかし、大半のエンタープライズが Big Data をディプロイしていくとき、Hadoop は支配的なプラットフォームではなく、アーキテクチャ上の中心に座ることもないだろう。つまり、いまは名前もない、新しい Big Data プラットフォームの適用もありえるのだ」と、発言している

ーーーーー

Hadoop といえば、その大元は Google の MapReduce になるのですが、Agile_Cat が敬愛する High Scalability の Todd Hoff さんが、「Google Instant では、リアルタイム検索のために MapReduce を排除!」という記事を、2010年 9月の時点で書いていました。 これは、Google がインクリメント・サーチを開始した時期と同じころの話であり、すでに違う世界でチャレンジしているのだなぁ・・・ と関心した記憶が蘇ってきました。 いまの Google 先生はというと、BigQuery というサービスを提供していますが、それと GCE 上の Hadoop の関係など、いったい、どうなっているのでしょうか? いろいろと、興味の尽きないフィールドですね。

ーーーーー

<関連>

IoT の調査: 依然として見えてこない、セキュリティとプライバシーの方向性
Digital Universe の調査: データの生成は、人間からマシンへ、そして先進国から途上国へ
Data Center の調査: 未来のデータセンターは、小型で手元に置かれるものになる
IoT の調査:ベンダーごとの呼び方があるが、やはり IoT は IoT だ!
Cloud Computing の調査:クラウドはオンプレミスを置き換えるものへとシフトしている

Comments Off on Big Data の調査:未来においても Hadoop の支配は続くのか?

Hadoop と Big Data の調査:企業ユーザーが指摘する問題点は、信頼性/使い易さ/ソリューションの欠落

Posted in Big Data, Hadoop, On Monday by Agile Cat on February 24, 2014

Hadoop and Big Data: Businesses Frustrated by Lack of Reliable, User-Friendly and Secure Solutions
http://wp.me/pwo1E-7eV

By Dick Weisinger – February 17th, 2014
http://formtek.com/blog/hadoop-and-big-data-businesses-frustrated-by-lack-of-reliable-user-friendly-and-secure-solutions/

_ formtek

While Big Data technologies made big headlines in the tech press in 2013, by the end of the year, the adoption of Big Data technologies across many businesses was only relatively modest. A survey by the SandHill group of a cross-section of global businesses found that:

Big Data テクノロジーは、2013年のハイテク・プレスで大きな話題をさらい、その年末までヘッドラインを賑わしていたが、大多数の企業における Big Data の採用となると、比較的に控えめであった。グローバル・ビジネスを横断的に見ている、SandHill Group の調査では、以下のような論点が見出されている:

  • 44 percent said that they are still in the exploration and education phase of Big Data technologies
  • 16.3 percent are conducting proof of concept trials
  • 11.1 percent are developing their first Hadoop-based applications
  • 回答者の 44% は、Big Data テクノロジーについて、依然として探求と教育の段階にあると述べている
  • 16.3% は、POC(proof of concept)トライアルを実施していると言っている
  • 11.1% は、自身にとって初めての、Hadoop ベース・アプリケーションを開発していると述べている

Not only has adoption been relatively slow, the types of solutions created to date have tended to be relatively mundane — Matt Assay comments that “by far the biggest use of Hadoop to date has been as a poor person’s ETL”.

その採用が、相対的に見て遅れているだけではなく、これまでに開発されたソリューションのタイプも、ありきたりのものあった。 それについて、Matt Assay は、「 これまでの Hadoop の用途において、群を抜いて多いのは、貧しい人々のための ETL(Extract, Transform, Load)である」と述べている

While there is a strong interest in the potential of Big Data from the business side of organizations, many are frustrated by usability issues of the technology.  A survey of business executives taken by 1010data, for example,  found that a majority feel that they are locked out of Big Data technologies like Hadoop.  53 percent said that Big Data solutions aren’t addressing the needs of business users.  49 percent said that current Hadoop-based solutions are too complex and that they’d like to see solutions for Big Data that have “fewer moving parts”, and 62 percent said that in order for them to more effectively use Big Data technologies like Hadoop to solve business problems that they need to be better educated about how the technology works.

ビジネス・サイドの組織からは、Big Data の可能性に強い関心が示されているが、その中の多くが、このテクノロジーのユーザビリティに対して不満を感じている。 1010data が実施した 企業エクゼクティブに対する調査では、その大多数が、Hadoop のような Big Data テクノロジーを、閉鎖的なものだと捉えられていることが分かった。 また、53% は、ビジネス・ユーザーのニーズに取り組んでいる、Big Data ソリューションが存在していないと述べている。 49% は、現在の Hadoop ベース・ソリューションについて、あまりにも複雑すぎると考え、また、Fewer Moving Parts を有する Big Data ソリューションを探したいと言っている。 そして、62% は、ビジネス上の問題を解決するために、Hadoop のような Big Data テクノロジーを用いるには、このテクノロジーが機能する方式について、より適切な教育が必要だと述べている。

Specifically, the 1010data survey considered how the latest Hadoop 2.0 release can improve business solutions.  Hadoop 2.0 includes YARN which allows Hadoop resources to be managed for multiple jobs running across an array of servers.  But business executives aren’t yet convinced that the technology is ready for prime time.  45 percent of them are worried about reliability.  42 percent say that they have major concerns about costs, and 35 percent say that there is still too much low-level coding required to apply the technology to business solutions.  41 percent say that Hadoop is still too new and not yet as stable as other existing technologies.

具体的にいうと、1010data の調査は、Hadoop 2.0 という最新リリースにより、ビジネス·ソリューションを改善する方式を検討するために実施されている。Hadoop 2.0 には YARN が取り込まれているが、それにより、なんらかのサーバー・アレイを横断するかたちで実行される複数のジョブのために、Haddop リソースを管理できるようになる。 しかし、企業エクゼクティブたちは依然として、このテクノロジーが最盛期を迎えるための、準備を整えているとはと確信していない。 そのうちの、45% は信頼性について心配し、42% はコストを最大の懸念としている。 そして、35%は、このテクノロジーをビジネス・ソリューションに適用するには、依然として低レベルのコーディングが必要だと述べている。 さらに 41% は、Hadoop は新し過ぎて、その他の既存テクノロジーのように、安定していないと言っている。

But software developers and integrators are well aware of the problems.  It’s likely that 2014 will see a surge in Big Data product offerings and add-ons that specifically try to create an improved experience for users.

しかし、ソフトウェアのデベトッパーやインテグレーターは、この問題を、よく理解している。そして、2014年には、Big Data のプロダクトとアドオンが急増し、とりわけ、その利用者に対して、改良されたエクスペリエンスが提供されると思われる。

ーーーーー

2009年10月に開催された、最初の Hadoop World NYC から、すでに 4年半の歳月が流れているのですね。 その頃は、もっと早く、Hadoop の事例が増えてくると思っていましたが、エンタープライズ・ユーザーにまで広がるには、まだまだ取り除かれるべき障壁が多いのだと、この記事を訳していて感じました。 いろいろな意味で、ちょっとガッカリする数字が並んではいますが、もう一息で、そのカベも乗り越えられるでしょう。 ガンバレ Hadoop & Big Data です! image

ーーーーー

<関連>

IoT の調査:ビジネスに革命をもたらすテクノロジーではあるが、まだまだ課題が山積みだ
Mobile の調査: 2014年の中小企業は、PC を捨て始めるかもしれない
Enterprise の調査:ここでもソーシャル・ネットワークが 急成長している
Cloud の調査:これからの2年間で、Top-100 プロバイダーの 25% が買収される
Open Data の調査:年間で 500兆円の 経済効果が 見いだせる?

Comments Off on Hadoop と Big Data の調査:企業ユーザーが指摘する問題点は、信頼性/使い易さ/ソリューションの欠落

Hadoop 2 がリリースされた : MapReduce から YARN へ移行

Posted in .Selected, Apache, Big Data, Google, Hadoop, MapReduce by Agile Cat on October 17, 2013

Apache Software Foundation unveils Hadoop 2, replacing MapReduce with YARN
http://wp.me/pwo1E-6MQ

Loek Essers, IDG News Service @loekessers – Oct 16, 2013
http://www.pcworld.com/article/2055140/apache-software-foundation-unveils-hadoop-2-replacing-mapreduce-with-yarn.html

image

The Apache Software Foundation unveiled its latest release of its open source data processing program, Hadoop 2. It runs multiple applications simultaneously to enable users to quickly and efficiently leverage data in multiple ways at supercomputing speed, Apache said Wednesday.

Apache Software Foundation が、そのオープンソース・データ処理プログラムである、Hadoop 2 の最新リリースを発表した。水曜日の Apache の説明によると、マルチ・アプリケーションの同時実行が達成されることで、ユーザーは各種の方式を用いて、しかもスーパー・コンピューターの速度で、そのデータを迅速かつ効率よく活用できるようになる。

Apache Hadoop is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It enables organizations to more efficiently and cost-effectively store, process, manage and analyze the growing volumes of data being created and collected every day.

Apache Hadoop は、シンプルなプログラミング·モデルを用いて、しかもコンピュータやクラスタを横断するかたちで、大規模データの分散処理を実現するフレームワークである。それにより、毎日のようにデータを収集/作成していく組織は、増え続ける情報の保存/処理/管理/分析を、効率よく低コストで達成していける。

Hadoop is deployed at enterprise organizations around the globe, including Amazon Web Services, AOL, Apple, eBay, Facebook, Netflix and Hewlett-Packard.

現時点において Hadoop は、Amazon Web Services/AOL/Apple/eBay/Facebook/Netflix/Hewlett-Packard といった、世界中のエンタープライズに展開されている。

The latest version of the platform, released Wednesday, has been more than four years in the making and has a number of new components. Most notable is the addition of YARN, (Yet Another Resource Negotiator), which is a successor to Hadoop’s MapReduce. The new version splits major functions into two separate daemons, with resource management in one, and job scheduling and monitoring in the other.

水曜日にリリースされた、このプラットフォームの最新バージョンは、その製作に 4年以上の歳月をかけ、また、いくつかの新しいコンポーネントを取り込むものとなる。その中でも、最も注目すべきは、Hadoop における MapReduce の後継者となる YARN(Yet Another Resource Negotiator)である。この新バージョンでは、主要な機能を、2つの Deamon に分割している。その 1つは、Resource Management であり、もう 1つは Job Scheduling and Monitoring となる。

Apache Software Foundation

YARN sits on top of the HDFS (Hadoop Distributed File System) and serves as a large-scale, distributed operating system for big data applications, enabling multiple applications to run simultaneously for more efficient support of data throughout its entire lifecycle, Apache said in a news release. Hadoop 2 and YARN gives users the ability to mix batch, interactive and real-time workloads within a stable foundational part of the Hadoop ecosystem, it said.

YARN は HDFS(Hadoop Distributed File System)の上に配置され、Big Data アプリケーションのための、大規模/分散オペレーティング・システムとして機能する。 それにより、ライフサイクル全体を通して、データを効率よくサポートとしていく、マルチ・アプリケーションの同時実行が可能となると、Apache はニュース・リリースで述べている。 そして、Hadoop 2 と YARN がユーザーに提供するものとして、バッチ/インタラクティブ/リアルタイムのワークロードなどを混在させる能力を、Hadoop エコシステムの安定した基盤を用いて実現することを挙げている。

Apache also refers to YARN as MapReduce Version 2. It retains API compatibility with the previous version, and applications written for MapReduce will run on YARN if recompiled, the foundation said.

また、Apache は YARN について、MapReduce の Version 2 だとしている。 つまり、これまでのバージョンとの API 互換を保持し、再コンパイルさえすれば、MapReduce 用のアプリケーションを YARN 上で実行できると、同ファンデーションは述べている。

More than a dozen Apache projects integrate with Hadoop, and ten more are about to follow, Apache said.

1ダース以上の Apache プロジェクトが Hadoop と統合されているが、その大半が、新たなプラットフォームに移行すると、Apache は述べている。

The General Availability (GA) release of Hadoop 2 follows a preview distribution that was released in June, that also included YARN. Apache Hadoop 2 will be released under the Apache License v2.0.

Hadoop 2 の General Availability (GA) リリースは、6月にリリースされたプレビューに、つまり YARN が含まれていたディストリビューションに従うものとなる。なお、Apache Hadoop 2 は、Apache License v2.0 の下でリリースされる。

ーーーーー

image Hadoop に関するポストというと、かなり久々のことなのですが、当然のものとして、広く浸透していることの、証明なのかもしれません。 昨年の、Apple Maps 騒動のときに、Wired が 面白い記事をポストしていました。 そこには ーーー このバトルの背景は、たった 2つの言葉で説明できる。 つまり、Google は Big Data を使いこなし、その一方で Apple は、Big Data を急いで準備している段階にある。ーーー という、とても分かりやすい一文が記されていました。そして、Hadoop も、ついに新世代なのですね。 ほんと、期待大です!image

ーーーーー

<関連>

IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する
Facebook と Hadoop : どのように 100 Peta Byte ハンドリングするのか?
Facebook にストアされた 100 PB イメージ・データは、写真にすると 6,660 億枚になる!
ついに、Hadoop for Windows がデビューするらしい
Hadoop 王国は、戦国時代へと 突入する?

 

Comments Off on Hadoop 2 がリリースされた : MapReduce から YARN へ移行

クラウドから特許を追放するって、ステキ すぎます Google 先生

Posted in .Selected, Big Data, Data Center Trends, Google, Patent by Agile Cat on October 2, 2013

Google donates 79 more patents to shield the cloud from lawsuits
http://wp.me/pwo1E-6J7
By Jeff John Roberts – AUG. 8, 2013
http://gigaom.com/2013/08/08/google-donates-79-more-patents-to-shield-cloud-from-lawsuits/

_ Gigaom

Summary: Google has taken an important new step in its effort to carve out a space where cloud computing innovators can work without fear of being sued.

Summary: Google は、クラウドにおけるイノベーションが訴訟により妨げられないよう、その空間を切り開くという試みへ向けて、きわめて重要な一歩を踏み出した。

ーーーーー

Google is ramping up its campaign to protect the cloud from the sort of nuisance patent lawsuits that have engulfed the smartphone and app-developer industries.

Google は、ある種の厄介な特許の問題から、つまりスマホとアプリの開発者や産業を巻こむ訴訟から、クラウドを保護するためのキャンペーンの手はずを整えている。

photo: alphaspirit

On Thursday, the company designated 79 more patents to be part of its “Open Patent Non-Assertion Pledge,” which amounts to a non-aggression pact under which anyone can use the technology described in the patents — anyone, that is, who doesn’t use patents to attack Google first.

木曜日(8/8)に同社は、Open Patent Non-Assertion Pledge(オープン特許非係争条項)一環として 79 種類以上の特許を指定し、それぞれの特許に記載されたテクノロジーを、誰もが利用できるという非訴訟協定のもとに置くとした。 ただし、Google を最初から攻撃しようとする者は、それらの特許を使用しないだろう。

The news, announced in a blog post, is significant because the patents relate to essential elements of “big data,” which is one the most important fields in technology right now. Google hopes the newly added patents, which it acquired from IBM and CA Technologies, expand the areas of cloud software in which developers can innovate without fear of being sued.

このブログ・ポストで発表されたニュースが重要なのは、それらの特許には Big Data が、つまり、現在のテクノロジーにおける最重要分野に関連する、本質的な要素も含まれるからだ。さらに Google は、IBM と CA Technologies から取得した特許も、ここに加えたいとしている。それによりデベロッパーは、訴訟を恐れることなく、クラウド·ソフトウェア領域におけるイノベーションを拡大できる。

When the company announced the non-aggression pact in March, the pledge applied to just 10 patents related to MapReduce and Hadoop programming models. The new patents, according to a source at Google, cover different areas related to data-center technologies. In particular, they cover methods for operating data centers efficiently and for so-called “alarm monitoring.”

今年の 3月に、同社が非訴訟協定を発表したときは、MapReduce と Hadoop のプログラミング・モデルに関連する、わずか 10 特許に対して、その誓約が適用されていた。Google 内の情報源によると、新たに追加された特許は、データセンター・テクノロジーに関連する、さまざまな分野をカバーするようだ。そして、効率よくデータセンターを運用するための方式や、いわゆる Alarm Monitoring などをカバーする点が、注目を集める。

As we’ve noted before, Google’s non-aggression pact is no magic bullet to stop nuisance cloud-based lawsuits, in part because it provides little deterrent to so-called trolls — shell companies, often backed by lawyers and private investors, that do nothing but acquire old patents in order to file lawsuits.

ただし、以前に指摘したように、Google の非訴訟協定は、厄介なクラウド訴訟を排除できるという特効薬ではなく、トロールと呼ばれる小さな荒らしをもたらす者は止められないだろう。それらのペーパー・カンパニーは、古い特許を取得する以外に何もしないが、弁護士や民間投資家に支えられながら、随所で訴訟を繰り返していく。

But overall, the expanded pact is good news because it promotes the idea of a technological open space in which anyone can use the basic building blocks of cloud computing. A similar open model, in the case of copyright, has already proved essential for developing a wide variety of common software; under the open GNU license model, developers contribute a common pool of code that anyone can use.

しかし、全体を見れば、誰もがクラウド·コンピューティングの基本的なビルディング·ブロックを使用できる、テクノロジー・オープンスペースのアイデアを促進するため、この拡張された協定は朗報である。類似のオープンモデルは(Copyright の範囲において)は、一般的なソフトウェアを幅広く開発するために、不可欠な存在であると、すでに証明されている。つまり、オープン な GNU ライセンス・モデルにしたがい、誰もが利用できるコードが、共有のための枠組みの中にコントリビュートされているのだ。

The Google initiative also coincides with a growing push by tech companies to push back against people who abuse the patent system. These abusers include lawyer Erich Spangenberg, who makes $25 million a year from patent trolling, and boasted to the New York Times about how he “goes thug” on companies that resist his demands.

この、Google の構想は、特許制度を乱用する人々を押し返そうという、ハイテク企業の成長を支える勢力とも一致している。これらの、特許を乱用すると言われる弁護士には、トローリングで $25 million/年を稼ぎ出す Erich Spangenberg も含まれる。なにせ、自身の要求に抵抗する企業を、どうやって脅すのかと、彼は New York Times に自慢しているのだ

In response to the trolling problem, cloud-computing provider Rackspace is putting its money on the line to fight a troll that claims to own basic mobile technology. And social media firm Twitter has created the “Innovator’s Patent Agreement” to assure its engineers that it won’t use their work for future patent trolling.

トローリングの問題に対応するため、クラウド・プロバイダーである Rackspace は、基本的なモバイル・テクノロジーを所有すると主張する、あるトロールと戦うために、すぐにでも使える現金を用意している。また、ソーシャル・メディアの Twitter は、自身のエンジニアたちに対して、彼らの作品を将来的にトローリングなどに使用しないと約束する、Innovator’s Patent Agreement を作成している。

Google says it hopes other companies will also contribute to the pool of patents that form the Open Patent Non-Assertion Pledge.

Google は、他の企業に対しても、Open Patent Non-Assertion Pledge に特許を提供するよう呼びかけている。

Related research

ーーーーー

google-55a

もう、2年前の話になりますが、Google が Motorola の買収へと至るプロセスの中で、Nortel の知的財産権を購入した企業グループは、このようなオープン化の動きを一番恐がっていたのだと思います。 ここで説明する必要もないですが、知的財産の保護は重要であり、また、イノベーションを停滞させるという副作用も持ちます。昨年の Java をめぐる係争で、Oracle の訴えをはねつけた米司法当局も、イノベーションを優先した、ということなのでしょうかね? __AC Stamp 2

ーーーーー

<関連>

Java と Android をめぐる Oracle と Google の争い : API の適正な用法とは?
Google が IBM からの特許取得を拡大 – Oracle への反撃は?
Google は IBM から、1030 個の特許を取得する!
Google Drive をめぐる特許問題と、その背景を考察する
Microsoft のパテント・トローリング戦略とは
Android 特急は、パテント攻撃により脱線してしまうのか?
アメリカ独占禁止法当局が、Nortel の特許売却を調査?
Apple と Google に妥協点はあるのか : Tim と Larry が水面下で協議を継続?
Microsoft と Oracle の提携 : その骨子が明らかになった!
モバイル特許の相関図は 込み入っていて、まるで地下鉄マップのようだ!

 

Comments Off on クラウドから特許を追放するって、ステキ すぎます Google 先生

CIA の Prism と Big Data : 作り方を 見積つきで 教えましょう

Posted in .Selected, Big Data, Government, Strategy by Agile Cat on August 6, 2013

PRISM: The Amazingly Low Cost of ­Using BigData to Know More About You in Under a Minute
http://wp.me/pwo1E-6sD
Monday, July 1, 2013
http://highscalability.com/blog/2013/7/1/prism-the-amazingly-low-cost-of-using-bigdata-to-know-more-a.html

_ highscalability

This is a guest post by BugSense Founder/CTO Jon Vlachogiannis and Head of Infrastructure at BugSense Panagiotis Papadomitsos.

これは、BugSense の Founder/CTO である Jon Vlachogiannis と、Head of Infrastructure である Panagiotis Papadomitsos からの、ゲスト・ポストである。

ーーーーー

There has been a lot of speculation and assumptions around whether PRISM exists and if it is cost effective. I don’t know whether it exists or not, but I can tell you if it could be built. Short answer: It can.

PRISM の存在について、さまざまな憶測や仮定があり、コスト的に見合うものなのかという声もあった。私には、その存在について知る由がないが、それを構築できるのか、できないのか、については言及できる。 端的に言えば、その構築は可能である。

If you believe it would be impossible for someone with access to a social "datapool" to find out more about you (if they really want to track you down) in the tsunami of data, you need to think again.

誰かがソーシャルの "データプール" へアクセスし、その津波のようなデータの中から、アナタについて調べたいと思っても(彼らは真剣になってアナタを追跡する)、そんなことは不可能だと思うなら、もう一度考える必要がある。

Devices, apps and websites are transmitting data. Lots of data. The questions are could the data compiled and searched and how costly would it be to search for your targeted data. (hint: It is not $4.56 trillion).

デバイスおよび、アプリケーション、Web サイトから送信されるデータは、大量のデータとなる。

ここでの問は、データの変換/検索が可能かどうかと、ターゲットとなるデータの検索に、どのくらいのコストが必要かという点である(ヒント:$4.56 trillion ということはない)。

Let’s experiment and try to build PRISM by ourselves with a few assumptions:

さぁ、以下に並べた、いくつかの過程を用いて、私たちの PRISM を構築してみよう:

  • Assumption 1: We have all the appropriate "data connectors" that will provide us with data.
  • Assumption 2: These connectors provide direct access to social networks, emails, mobile traffic etc.
  • Assumption 3: Even though there are commercially available solutions that might perform better for data analysis, we are going to rely mostly on open source tools.
  • Assumption 1:  私たちは、すべての適切な "データ・コネクター" を入手しており、そこからデータが提供される。
  • Assumption 2:  それらのコネクターにより、Social Network/Email/Mobile Traffic にダイレクト・アクセスできる。
  • Assumption 3:  より適切なデータ分析を提供する市販ソリューションがあるが、私たちは、主として OSS のツールを活用するつもりだ。

With those assumptions, how much would it cost us to have PRISM up and running and to find information about a person in less than a minute?

これらの仮定に基づいて、PRISM を所有/稼働させ、特定の人物に関する情報を、1分以内に探しだすときに、どの程度のコストが必要になるのだろう?

Let’s begin with what data is generated every month that might contain information about you.

まず、その人物の情報を含む1ヶ月間のデータが、どれほどの量で生成されているのかを試算しよう。

DATA

Facebook: 500 TB/day * 30 = 1.5 PT/month (source)
Twitter: 8 TB/day * 30 = 240 TB/month 8 TB/day (
source)
Email/Other info: 193PT/month Google says 24 PB per day (2008). Five years later lets assume this is 8 times bigger = 192 PB. Now, real user information is 1/3 = 64 PT/day (
source)
Mobile traffic/machine­to­machine exchanges/vehicles etc: 4000 TB per day = 117 PB/month (
source)

Total Data =~312PB month

Facebook: 500 TB/日 * 30 = 1.5 PT/月 (source)
Twitter: 8 TB/日 * 30 = 240 TB/月 (
source)
Email/Other 情報: 192 PT/月。 2008年の時点で、Google 24 PB/日と発言している。したがって、そこから5年を経過した現時点では、192 PB/日と推定する。そこに含まれる、ユーザーに関連する情報を 1/3 とすると、64 PT/日 (
source)
Mobile traffic/machine ­to ­machine exchanges/vehicles etc: 4000 TB/日 = 117 PB/月 (
source)

Total Data = ~312PB/月(どうも、計算が合いませんが、大まかということで ^^;)

Hardware Costs

The prices below correspond to renting off­the­shelf servers from commercial high­end datacenters (considering the data will be stored in a distributed filesystem architecture such as HDFS). This is a worst case scenario that does not include potential discounts due to renting such a high volume of hardware and traffic or acquiring the aforementioned hardware (which incurs a higher initial investment but lower recurring costs) . The hardware configuration used for calculating costs in this case study is comprised of a 2U chassis, dual Intel Hexa­core processors, 16 GB of RAM, 30 TB of usable space combined with hardware­level redundancy (RAID5).

We’ll be needing about 20K servers, put into 320 46U racks. Cost for the server hardware is calculated to be about €7.5M / month (including servers for auxiliary services). Cost for the racks, electricity and traffic is calculated to be about €0.5M / month (including auxiliary devices and networking equipment).

Total hardware cost per year for 3.75 EB of data storage: €168M

以下の価格は、商用のハイエンド・データセンター(データは HDFS などの分散ファイルシステム・アーキテクチャを用いてストアされる)から、ただちに運用できるサーバーをレンタルするときのものである。ただし、この見積は、大量のハードウェアとトラフィックという条件において、ディスカウントの可能性を含まず、また、前述のハードウェアを購入しないという(初期投資が少なくてもランニング・コストが肥大する)、最悪のシナリオをベースにしている。このケース・スタディにおいて、コストを試算するたハードウェア構成は、2U シャーシおよび、Dual Intel Hexacore プロセッサ、16 GB の RAM、ハードウェア・レベルでの冗長性(RAID5)を前提とした 30 TBのスペースで構成されている。

そして、320 台の 46U ラックに詰め込む、20000 台のサーバーが必要になるだろう。それらのサーバー・ハードウェアのコストは、€7.5M/月(補助サービス用のサーバーも含む)程度と試算できる。また、ラックおよび、電力、トラフィックのコストは、€0.5M/月程度(補助機器とネットワーク機器を含む)と試算できる。

3.75 EB のデータ・ストレージを運用するための、全ハードウェア・コスト : €168M/年

Development Costs

  • 3 (top notch) developers ­> 1.5M per year
  • 5 administrators ­> 1.5M per year
  • 8 more supporting developers ­ > 2M per year
  • Developer costs ­> $1M­5M per year (assumes avg developer pay of $500k per year) = 3.74M euro

Total personnel costs: €4Μ

  • 3人の、トップレベル・デベロッパー ­= 1.5M/年
  • 5人の、アドミニストレーター = 1.5M/年
  • 8人の、サポート・デベロッパー = 2M/年
  • 開発コスト = $5M/年 (平均的なデベロッパー賃金を $500k/年とする) = 3.74M euro

トータルの人件費/年 : €4Μ

  • Total Hardware & Personnel Costs: €12M per month (€144M per year) = $187M per year
  • トータルのハードウェア・コストと人件費の総額 : €12M/月 (€144M/年) = $187M/年

Software

On the software side, the two main components necessary are:

  • A Stream (in­memory) Database to alert about specific events or patterns taking place in real­time and to make aggregations and correlations.
  • A MapReduce system (like Hadoop) to further analyze the data.

ソフトウェアの側面においては、2つのメイン・コンポ-ネントが必要になる:

  • A Stream (in­memory) Database to alert about specific events or patterns taking place in real­time and to make aggregations and correlations.
  • A MapReduce system (like Hadoop) to further analyze the data.
  • Stream  Database (in­memory):リアルタイムにおいて、特定のイベントやパターンについて警告し、集計し、相関関係を作成する。
  • MapReduce system (like Hadoop) : さらに詳細な、データ分析を行うため。

Now that we know the cost of finding anything about you, how would it be done?

The data is "streamed" to the Stream Database from the data connectors (social networks, emails etc), aggregated, and saved to HDFS in order for a MapReduce system to analyze them offline

(Bugsense is doing exactly the same thing with crashes coming from 520M devices around the globe with less than 10 servers using LDB, so we know this is both feasible and cost efficient. Yup, 10 servers for 520M. In real­time).

特定の人物を見つけ出すためのコストと、そのための処理は、そのようになっているのか?

対象となるデータは、データ・コネクターから Stream Database へ向けてストリーミングされ、アグリゲーションされた後に、HDFS にストアされる。 そして、MapReduce システムにより、オフラインで分析される。

( Bugsense では、LDB を使用する10台未満のサーバーにより、まったく同じ事を行おうとして、グローバルにおけるデバイス数を 5億2000万台に引き上げたところでクラッシュしている。つまり、リアルタイムでは、10台のサーバーで、5億 2000万台のデバイス数が、ある種の目安になる)

Next, we’d run a new search query on the 312PT dataset. How long will that take?

We could use Hive in order to run a more SQLish query on our dataset, but this might take a lot of time because data "jobs" need to be mapped, need to be read & processed, and results need to be send back and “reduced”/aggregated to the main machine

To speed this up, we can create a small program that saves data in columnar format in a radix tree (like KDB and Dremel does) so searching is done much faster. How much faster? Probably less than 10 seconds for 400TB for simple queries. That translates (very naively) to less than 10 seconds to find information about you.

続いて、312PT のデータセットに対して、新しいクエリーをかけてみた。どれくらいの時間を要したと思う?

このデータセット上で、SQL 的なクエリーを実行するために、Hive を使用できる。 ただし、データ "jobs" をマップする必要があり、 read & processed が必要であり、その結果をメイン・マシンに向けて転送し、“reduced”/aggregated を行う必要がある。

それをスピードアップするために、私たちは小さなプログラムを作成し、 radix tree 上の columnar format に、データを保存することにした ( KDB や Dremel が行うように)。 それにより、サーチが速くなったが、どれ程だと思うだろう? 400TB のデータに対して、シンプルなクエリーをかけるだけなら、おそらく 10秒以内で完了するだろう。 この、変更により、特定人物に関する情報の検索も、10秒未満のレンジへと、その性能を引き上げている。

Do you think that PRISM can be built using a different tech stack?

ここで取り上げていない、他のテクノロジー・スタックを用いて、PRISM を構築できるだろうか?

Related Articles

ーーーーー

TAG indexなるほど、という記事ですね。 先週の TechCrunch に、『 NSAが極秘のスパイ事業XKeyscoreについて釈明 』という記事が掲載されていましたが、この Prism の構造が徐々に解明されているようです。このところ、日本でも Suica の Big Data 問題が、ニュースを賑わしていますが、ユーザーが気をつけても抗しきれない状況になってきているようです。 まずは、さまざまな情報が共有され、実態の把握を進めることなのでしょうね。 その意味で、素晴らしい記事だと思います。image

ーーーーー

<関連>

Facebook の 超絶 Web パフォーマンス : その秘密を解析する
Facebook の超高速ストレージ : TAO の詳細を説明しよう
DynamoDB および、ホット SSD + コールド S3 というパターン
Google Maps は Big Data を使いこなすが、Apple Maps には それが出来ない
みんなの先生 James Hamilton 特集

 

Comments Off on CIA の Prism と Big Data : 作り方を 見積つきで 教えましょう

%d bloggers like this: