Agile Cat — in the cloud

Open Data の調査:年間で 500兆円の 経済効果が 見いだせる?

Posted in .Selected, Businesses, Government, On Monday by Agile Cat on January 19, 2014

Open Data: Enabling $5 Trillion Annually in Value?
http://wp.me/pwo1E-787

By Dick Weisinger – Dec 30, 2013
http://formtek.com/blog/open-data-enabling-5-trillion-annually-in-economic-value/

_ formtek

Open Data has the potential to unlock between $3 trillion to $5 trillion annually in economic value, says a report by McKinsey. Specifically, the identify seven sectors of the global economy where the value could be attained.

McKinsey がレポートするには、Open Data により改善される経済的な価値が、年間で $3 trillion 〜 $5 trillion に至る可能性があるとのことだ。 そして、この経済価値の転換を可能にするものとして、グローバル経済における7分野を具体的に指摘している。

Michael Chui, principal at McKinsey, told CMSWire that that “open data has traditionally been motivated by societal goals such as improving transparency. But it is important to recognize that by opening data, you also create significant economic value.”

McKinsey の主席である Michael Chui が、「 Open Data は伝統的に、たとえば透明性の向上などの、社会的目標が動機とされている。しかし、データがオープン化されることで、夥しい経済的価値が生み出されると、認識することが重要である 」と、CMSWire に語っている。

While the McKinsey results are interesting, they seem a bit of a stretch. While certainly Open Data is one technology that can contribute in improving the areas that they suggest, Open Data alone will not be able to unlock the enormous projections that McKinsey forecasts. Parallel advances in Big Data, analytics, and computing all play an equally important role in helping to better utilize and achieve value from data.

McKinsey の結論は興味深いものではあるが、若干の誇大があるとも思える。確かに Open Data は、彼らが示唆する領域に貢献できる 1つのテクノロジーであるが、そこで予想されるような大きなビジョンを、単独で改善することは不可能だ。Big Data/分析/コンピューティングの、すべてが平行して進化し、また、データの価値を活用する上で、同じような重要な役割を担うことで、それは達成されるだろう。

The McKinsey report found that “Making data more ‘liquid’ (open, widely available, and in shareable formats) has the potential to unlock large amounts of economic value, by improving the efficiency and effectiveness of existing processes; making possible new products,services, and markets; and creating value for individual consumers and citizens.”

McKinsey のレポートで分かったことは、「 データを液状化(オープンでシェアが可能な、広く利用できるフォーマット)することに、膨大な経済的価値が解放される可能性が、秘められていることである。そして、既存のプロセスの効率性と有効性を改善することで、また、新しいプロダクト/サービス/マーケットを作ることで、さらには、一人一人の消費者と市民のための価値を創造することで、それは改善されていく」 という点である。

The seven sectors where McKinsey sees open data playing a major role in unlocking economic value include:

Open Data が重要な役割を担い、経済的な価値を創造していくと、McKinsey が認識している 7つの領域とは、以下のとおりである:

Education – Open data can enable $890 billion to $1.2 trillion annual savings by identifying effective teaching strategies, improving instruction, and better matching students to programs and jobs.

Open Data により、効果的な教育ストラテジーを認識し、インストラクションを改善し、より適切なプログラムやジョブと学生をマッチングさせることで、年間で $890 billion 〜 $1.2 trillion が節約できる。

Transportation – Open data could realize $720 billion to $920 billion in value by helping to improve planning and management of infrastructure. Open Data can also improve the purchasing, deployment and maintenance of fleets, and it can improve decision making by customers to better select from travel options so as to fit their needs and schedule.

Open Data により、インフラストラクチャに関する計画と管理を改善することで、$720 billion 〜 $920 billion の経済効果が達成される。さらに Open Data は、船舶の購入/展開/保守も改善する。そして、旅客に対しては、自身のニーズやスケジュールに合った、より適切なオプションから選択するよう、顧客の意思決定を向上させることができる。

Consumer Products – Open data can help achieve $520 billion to $1.5 trillion annually by improving product design and manufacturing, making store operations more efficient, better targeting sales and marketing, better informing consumers about food benefits and product recalls, and improving post-sales interactions.

Open Data によりプロダクトの設計と製造を改善することで、年間で $520 billion 〜 $1.5 trillion の節約が達成される。具体的には、店舗運営の効率化と、ターゲット販売およびマーケティングの改善、適切な食品および製品リコールに関する消費者への通知、プロダクトを販売した後のインタラクションを改善ことで、達成される。

Electricity – Open data can help enable $340 billion to $580 billion annually by helping to optimize how money is spent and invested for power generation. It can improve and make more efficient power generation. It can help to identify and develop ‘smart grid’ technologies for achieving more efficient transmission and distribution of power, and it can help consumers be better informed about the electrical appliances and the electric power services that they use.

Open Data により、発電に関する経費と投資を最適化することで、年間で $340 billion 〜 $580 billion の経済効果が達成される。 それにより、発電における効率も改善される。つまり、より効率的な送電と分電を達成するための、スマートグリッド・テクノロジーの開発を促進することであり、電化製品を使用する消費者たちに、電力サービスに関する十分な情報を提供することである。

Oil and Gas – Open data can enable $240 billion to $510 billion annually by providing better seismic and geologic information that can help oil and gas businesses better decide how to invest in future discovery. Better data can improve the efficacy of exploration and production, help businesses better select plant locations, and to improve the reliability of their refining, processing and retail operations.

Open Data により、地震や地質に関する適切な情報を、石油/ガスなどの企業に提供することで、将来の投資における意思決定を促進することで、年間で $240 billion 〜 $510 billion の経済効果を見いだせる。より適切なデータは、探査と生産の効率を向上させ、より良いプラント・ロケーションを知らしめ、精錬/加工/販売における信頼性を向上させる。

Health Care – Open data in the Health Care industry can help realize $300 billion to $450 billion annually. The data could help people make better lifestyle and treatment decisions. The data can guide practitioners into selecting more effective treatments. Consumers would be better able to wisely select providers that better match their needs, and also help them to be more cost-effective in the decisions that they do make. Health-related research, such as in the area of new drugs and better medical devices, could be make more productive.

Open Data を、Health Care 業界に適用することで、年間で $300 billion 〜 $450 billion が節約される。このデータにより、より良いライフ・スタイルや治療を、人々は得ていくことになる。また、このデータにより、開業医たちは、より効果的な治療法へと導かれていく。また、消費者たちは、自分のニーズに合ったサービスの提供者を、十分な情報に基づいて選んでいけるだろう。そして、可能な範囲で、もっとも費用対効果の高いサービスを得ていくだろう。たとえば、新薬や医療機器といった、健康に関する研究分野が、より生産的なものに変化していく。

Consumer Finance – Open data could unlock $210 billion to $280 billion annually. Better targeted and custom-designed financial products could be developed with better data. Consumer marketing could be more targeted. With better data, consumers would be able to make better informed financial decisions.

Open Data により、年間で $210 billion 〜 $280 billion の無駄を省くことができる。より適切なデータがあれは、ターゲットが絞り込まれ、カスタムにデザインされた、金融商品の開発が促進される。消費者を対象とした、ターゲット・マーケティングも促進されていく。より良いデータを活用することで、消費者たちは、自身の資産管理について、より適切な意思決定を下していくだろう。

ーーーーー

世界中で繰り返されている、気の遠くなるような無駄を、Open Data を用いて排除していけるなら、ここで述べられているような経済効果も夢ではないのだと思えます。 しかし、この世の中、その無駄に乗っかって生計を立てている人もいるわけで、上記のことを実施しようとするなら、たいへんな抵抗勢力と対峙しなければならないでしょう。 そして、それ以前に、戦争っていったい何なの? という議論があるでしょうし、武力とコストという問題も考えるべきなのでしょう。 単なるテクノロジーの話というより、人類の叡智の話という感じですね。__AC Stamp 2

ーーーーー

<関連>

2014 展望:Amazon CTO が語る 4つのトレンド
Gartner の 2014 クラウド・トレンド Top-10
Cloud の 調査 : OpenStack における大きな推進力と、依然として荒削りな細部
PaaS の 調査: もたらすものは、インフラ・コストの削減と、アプリ開発の加速?
Data Centers の調査 : データセンターの効率を多角的に考える

Comments Off on Open Data の調査:年間で 500兆円の 経済効果が 見いだせる?

IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する

Posted in .Selected, Big Data, Hadoop, Research by Agile Cat on July 20, 2012

IDC: Analytics a $51B business by 2016 thanks to big data
http://wp.me/pwo1E-4sK

By Derrick Harris Jul. 11, 2012
http://gigaom.com/cloud/idc-analytics-a-51b-business-by-2016-thanks-to-big-data/

_ Gigaom

The market for business analytics software grew 14 percent in 2011 and will hit $50.7 billion in revenue by 2016, according to market research firm IDC. And, that segment will grow at a 9.8-percent-a-year clip until then, IDC predicts, driven in part by the current hype around big data.

マーケット・リサーチ会社である IDC によると、ビジネス分析ソフトウェアのマーケットは2011年に 14% の上昇を見せ、また、2016 年までには $50.7 Billion に達するという。そして、このセグメントは、2016年まで 年率で 9.8% を上積みし、また、注目のキーワードである Big Data の周辺で伸びていくと IDC は予測している。

The renewed importance of analytics software comes as the idea of  big data has opened companies’ eyes as to the types of insights their data can provide far beyond what traditional analytics efforts yielded. Platform technologies such as Hadoop are letting companies store more data than ever before possible and crunch types of data not traditionally used.

Big Data が企業の視野を広げるという発想が広まるにつれて、分析ソフトウェアの重要性が見直されている。それは、伝統的な解析手法がもたらすものを、はるかに超えた洞察を提供するものとなる。 Hadoop のようなプラットフォーム・テクノロジーが、考えられないほどのデータ量に対応し、これまでは活用できなかった情報を解析していく。

Analytics software is a key component of big data strategies because it’s the stuff that lets companies actually analyze and visualize their data. Vendors in this space are having to retool their products — many products have been around for years, if not decades – for the age of big data. By IDC’s estimates, data warehousing was the fastest growing analytics area in 2011, increasing 15.2 percent, followed by analytics applications at 13.3. percent and BI tools at 13.2 percent.

分析ソフトウェアが Big Data 戦略の主要コンポーネントになるのは、企業におけるデータの解析/視覚化が、それにより実現されるからである。 この領域におけるベンダーたちは、10年とは言わずとも、数年前からのプロダクトを抱え込んでおり、この Big Data の時代に合わせて、それらの再編の迫られている。 IDC の推定によると、2011年のデータ・ウエアハウジングは、15.2% の成長を遂げている。 そして、それに続くのが、分析アプリケーションの 13.3% と、BI ツールの 13.2% である。

imageBy contrast, IDC recently predicted that the almost brand new market for Hadoop software and services will grow at about 60 percent a year until 2016, reaching $812.8 million up from $77 million today. It predicted the market for big data overall (which doesn’t include the higher-level analytics software) will reach $16.9 billion by 2015, up from $3.2 billion in 2010.

それとは対照的に、先日の IDC の調査によると、Hadoop のソフトウェアとサービスにおける、立ち上がったばかりのマーケットは、今日の $77 million から 2016年の $812.8 million へと、年率で 60% の成長が予測されている。また、Big Data 全体のマーケット(ハイレベルな解析ソフトウェアは含まない)は、2010年の $3.2 billion から、2015年には $16.9 billion にいたると予測されている。

Image courtesy of Shutterstock user marekuliasz.

Related research and analysis from GigaOM Pro:

ーーーーー

imageそれにしても、素晴らしいスピードで成長しているデータ分析市場ですね。 先日にポストした、「次世代ビジネスとして、Data as a Platform に注目する」というコンテンツでは、ーーー 企業が収集するデータの価値と、それを生み出すプロダクトにおける従来からの価値について考えるとき、広範囲におよぶ顧客と製品のデータを収集/分析することは、少なくとも、そのプロダクト以上の価値を持つようになる ーーー と指摘されていました。 そして、それを裏付けるかのような、この IDC のレポートですね。 ーーー image

ーーーーー

<関連>

クラウドで Big Data をハンドリングする 6 社の事例
Big Data を探せ! アメリカの 5つの具体的な事例とは?
これまでの Little Data のように、Big Data も価値を作り出すのか?
Big Data の実装へと走る前に、Better Data について考えるべきだ
Hadoop 王国は、戦国時代へと 突入する?
とっても ラブラブな Linux と Big Data

Comments Off on IDC:データ分析市場は、2016年までに $51 B ビジネスに成長する

Big Data を 美味しくいただくための、クッキング・ブックを作ろう

Posted in Big Data, Hadoop, MapReduce, NoSQL by Agile Cat on March 9, 2011

The Big Data Cookbook
Posted in
Main on March 8th, 2011
by Pingdom
http://royal.pingdom.com/2011/03/08/the-big-data-cook-book/ 

_ pingdom

Big data has become one the new buzzwords on the Internet. It refers to the massive amounts of data that many modern web services deal with. This post will list some of the more useful software available to web developers for working with big data.

Big data は、インターネット上の新しいバズワードになっている。 この用語は、数多くのモダンな Web サービスが取り扱う、大規模なデータのことを指す。 そして、このポストでは、ビッグ・データの分野で働くWeb デベロッパーにとって有益な、いくつかのソフトウェアをリストアップしていく。

5508810133_b27187101d_o

You don’t have to operate at the scale of Google or Facebook to enter into big data territory. Web analytics services, monitoring services (like our very own Pingdom), search engines, etc., all process and store massive amounts of data.

ただし、この領域に参加するからといって、Google や Facebook のスケールを考える必要はない。 そこまでいかなくても、Web 分析サービスおよび、モニタリング・サービス(Pingdom など)、サーチ・エンジンなどの全てが、大量データの処理と保存に対応している。

To quote Wikipedia (Wikipedia からの引用):

Big data are datasets that grow so large that they become awkward to work with using on-hand database management tools. […] Though a moving target, current limits are on the order of terabytes, exabytes and zettabytes of data.

Big data ビッグ・データは、成長が著しいデータセットであるため、手製のデータベース・マネージメント・ツールを用いた作業は厄介になってしまう。 [中略]その上限が定まっているわけではないが、現時点におけるデータの限度は、テラバイト/エクサバイト/ゼッタバイトの並びの上にある(つまり、ペタということ?)。

At this scale, many traditional approaches for handling and processing data are either impractical or break down completely.

このスケールにおける、従来からのアプローによるデータの操作と処理の試みは、現実的なものにならず、また、完全に失敗する。

That’s why the web development community has been turning to alternative ways to handle all this data, developing new software that scales to these extremes. You may have heard about NoSQL databases, but that’s just a small piece of the puzzle.

そこに、Web 開発のコミュニティが、それら全てのデータを取り扱うための、代替案を探し求めてきた理由がある。つまり、それらを大幅にスケールするソフトウェアの開発である。 NoSQL データベースの情報を持っていると思うが、それはパズルにおける小さい小片である。

So what are the various ingredients available for handling big data? We’ve divided them into four categories:

そして、このビッグデータを取り扱うために利用できる、各種の構成要素とは、何なのだろう?私たちは、それを を4つのカテゴリに分けてみた:

  • Storage and file systems
  • Databases
  • Querying and data analysis
  • Streaming and event processing

We figured this could be a good starting point, and we’re hoping that you’ll help us add to the list in this post by making your own suggestions in the comments. In other words, read the list, and help us add more useful ingredients!

私たちは、これが適切なスタート・ポイントだと考えている。そして、皆さんからのコメントを介して、いろいろな提案が集まり、このポストのリストに追記されていくことを希望している。言い換えれば、このリストを読み、さらに有益な構成要素を加え、私たちをサポートして欲しいのだ!

ーーーーー とりあえず、訳はココまで ーーーーー

Here we go…

Storage and file systems

When you need to store massive amounts of data, you’ll want a storage solution designed to scale out on multiple servers.

  • HDFS (Hadoop Distributed File System) – Part of the open source Hadoop framework, HDFS is a distributed, scalable file system inspired by the Google File System. It runs on top of the file system of the underlying OSs and is designed to scale to petabytes of storage. The Hadoop project (you’ll see several of the other components further down) has several high-profile contributors, the main one being Yahoo. Hadoop is used by Yahoo, AOL, eBay, Facebook, IBM, Meebo, Twitter and a large number of other companies and services.
  • CloudStore (KFS) – An open source implementation of the Google File System from Kosmix. It can be used together with Hadoop and Hypertable. A well-known CloudStore user and contributor is Quantcast.
  • GlusterFS – A free, scalable, distributed file system developed by Gluster
Databases

While classics like MySQL are still widely used, there are other options out there that have been designed with “web scalability” in mind, many of them so-called NoSQL databases (speaking of buzzwords…).

  • HBase – A distributed, fault-tolerant database modeled after Google’s BigTable. It’s part of the Apache Hadoop project, and runs on top of HDFS.
  • Hypertable – An open source database inspired by Google’s BigTable. A notable Hypertable user is Baidu.
  • Cassandra – A distributed key-value database originally developed by Facebook, released as open source, and now run under the Apache umbrella. Cassandra is used by Facebook, Digg, Reddit, Twitter and Rackspace, to name a few.
  • MongoDB – An open source, scalable, high-performance, document-oriented database. It’s used by, among others, Foursquare, Bit.ly, Shutterfly, Etsy and Chartbeat.
  • Membase – An open source, distributed, key-value database optimized for interactive web applications, developed by several team members from the famous Memcached project. Users include Zynga and Heroku. A month ago, the Membase project merged with CouchDB, creating a new project called Couchbase.
Querying and data analysis

All that data is of no use without the ability to access, process and analyze it.

  • Hadoop MapReduce – Open source version of Google’s MapReduce framework for distributed processing of large datasets.
  • Hive – An open source data warehouse infrastructure with tools for querying and analyzing large datasets in Hadoop. Supports an SQL-like query language called Hive QL.
  • Pig – A high-level language used for processing data with Hadoop. Funny aside: the language is sometimes referred to as Pig Latin.
Streaming and event processing

When you have massive amounts of data flowing into your system, you will often want to process and react on this data in real time.

  • S4 – A general-purpose, distributed, scalable platform for processing continuous streams of data. Developed by Yahoo and released as open source in 2010. It’s apparently not quite ready for prime time yet, although Yahoo is using a version of it internally.
  • Esper – An event-processing platform from EsperTech for handling continuous streams of incoming data.
  • StreamInsight – Microsoft’s entry in the EST/CEP field, included with SQL Server.

A small aside when speaking of streaming and event processing, you’ll hear two industry terms repeated over and over again: EST, Event Stream Processing, and CEP, Complex Event Processing. Just in case you were wondering what that actually stood for.

The Google legacy

It’s interesting how influential Google has been in the big data field in spite of having released very little actual software to the public.

Much of the open source big data movement is centered around Apache’s Hadoop project, which essentially has tried to replicate Google’s internal software based on the various whitepapers Google has made available. (More specifically, Hadoop has replicated GFS, BigTable and Mapreduce.)

Here is a list of some of Google’s proprietary software relating to big data:

  • GFS (Google File System) – Google’s scalable, fault-tolerant, distributed file system. Designed from scratch for use with data-intensive applications.
  • BigTable – A distributed, high-performance database system built on top of GFS.
  • Mapreduce – A framework for distributed processing of very large data sets.
  • Pregel – A framework for analyzing large-scale graphs with billions of nodes.
  • Dremel – Meant as a faster complement to Mapreduce, Dremel is a scalable, interactive, ad-hoc query system for large data sets. According to Google, it’s capable of running aggregation queries over trillion-row tables in seconds and scales to thousands of CPUs.

If we may be so bold as to bring out our crystal ball, there will most likely be several open source implementations of Pregel and Dremel available soon. For example, there’s already an OpenDremel project in the works.

Help us add more ingredients!

What excellent big data software did we leave out? Let’s make this post a true resource, so please give us a hand in the comments.

ーーーーー

なかなか面白い試みで、さすがは Pingdom です。 それと、Google legacy というカテゴリがユニークですが、さまざまな基盤を提供してくれて有難うと、言いたくなる実績ですね! では コメント欄から、ご意見など、ぜひ ど~ぞ! ーーー __AC Stamp 2

ーーーーー

<関連>
Mollom アーキテクチャは、毎秒 100回のリクエストを発行し、3億 7300万のスパムを退治する
プロジェクト Piccolo は、スピードで Hadoop を凌駕する
Real World NoSQL シリーズ – Netflix における Amazon SimpleDB
Real World NoSQL シリーズ – Openwave における Cassandra
Real World NoSQL シリーズ – 4PB を処理する Trend Micro の HBase
Google の発想 – リクエストとレスポンスを Tree で制御する
TOPSY の Twitter 分析 API は、5 億クエリー/月 を処理する!

Comments Off on Big Data を 美味しくいただくための、クッキング・ブックを作ろう

%d bloggers like this: