Agile Cat — in the cloud

Mac Pro の Gold コンセプト・モデル : まさに 輝けるコンピューティングなのだ!

Posted in Apple, Weekend by Agile Cat on December 8, 2013

The inevitable gold Mac Pro concept arrives
http://wp.me/pwo1E-70d

By Christian Zibreg, Oct 27, 2013
http://agilecat.files.wordpress.com/2013/12/gold-mac-pro-6.jpg

_ idownload

The prolific 3D designer Martin Hajek has envisioned a number of interesting Apple concepts, some more successful than the others. A few examples of his more recent work include the iPad mini 2 in gold and blue, the iWatch running Apple Maps and other iWatch renders.

多作でしられる 3D デザイナー の Martin Hajek は、Apple コンセプトに関しても、たくさんの想定を提供しており、その中には、きわめて秀逸なものがある。そして、最近の彼の作品には、Gold/Blue の iPad mini 2 や、Apple Maps を走らせる iWatch や、いくつかの iWatch レンダリング・モデルなどが含まれる。

_  space

_  space

Taking inspiration from a unique red Mac Pro designed by Jony Ive to be auctioned off for charity, Hajek has now produced a set of nice renditions attempting to imagine what Apple’s upcoming pro desktop might look like in gold finish…

チャリティーのオークションを狙うために Jony Ive によりデザインされた、Red の Mac Pro からインスピレーションを受けた Hajek が、これから登場する Apple のプロデスクトップの、Gold 仕立ての見栄えを想像するための、素敵なバージョンを作成している…

“Jony Ive can do a red Mac Pro,” Hajek remarks on his blog. “But when I first showed this gold Mac Pro rendering to my girlfriend her first reaction was: I want it.”

「 Jony Ive なら、Red の Mac Pro を製品化できるかもしれないが、この Gold の Mac Pro レンダリングを、私のガール・フレンドに見せたとき、それを欲しいというのが、彼女の最初の反応だった」と、Hajek は自身のブログで発言している

_  space

_  space

I’m not Hajek’s girlfriend, but I’d kill for one, too! Another one.

私は、Hajek のガール・フレンドではないが、これを手に入れるためには、なんでもするだろう! もう1枚の写真を見てほしい。

_  space

_  space

And here’s one depicting the Mac Pro, the iPhone 5s, Apple’s Magic Mouse and aluminum keyboard – all in gold.

これも、Mac Pro を描いた 1枚だが、iPhone 5S も、Apple Magic Mouse も、アルミのキーボードも、その すべてが Gold だ。

_  space

_  space

bling bling computing indeed. You can find a couple more renders on Hajek’s blog right here.

まさに、輝けるコンピューティングだ。 この、Hajek のブログには、別の画像が提供されている。 参照して欲しい。

Apple’s gone to great lengths to produce the Mac Pro’s ‘Made in USA’ enclosure. As revealed in its ‘how it’s made’ video, the company is employing the sophisticated deep drawing process on an astonishing scale and is using techniques typically reserved for the aerospace or medical device industries.

Apple は、Mac Pro を ‘Made in USA’ にすることで、素晴らしくコンパクトな筐体を実現している。その How It’s Made ビデオで明らかにされるように、同社は、深絞りプロセスという、航空宇宙や医療機器産業のためにの洗練された技法を、驚異的な精密さで実現している。

_  space

_  space

Apple has promised to ship the Mac Pro “in December” in two configurations.

Apple は、この Mac Pro に関して、2種類のコンフィグレーション・タイプを 12月に出荷すると約束している

The basic $2,999 model comes with Intel’s 3.7GHz quad-core Intel Xeon E5 processor, 12GB 1866MHz DDR3 ECC memory, dual AMD FirePro D300 graphics with 2GB GDDR5 VRAM each and 256GB of PCIe-based flash storage.

$2999 の ベーシック・モデルは、Intel 3.7GHz Quad-Core Xeon E5 プロセッサおよび、12GB 1866MHz DDR3 ECCメモリ、AMD FirePro D300 graphics with 2GB GDDR5 VRAM を 2枚、そして 256GB PCIe-Based Flash Storage を搭載する。

_  space

_  space

The more powerful $3,999 configuration includes a 3.5GHz six-core Intel Xeon E5 processor, 16GB 1866MHz DDR3 ECC memory, dual AMD FirePro D500 GPUs with 3GB GDDR5 VRAM each and 256GB PCIe-based flash storage.

よりパワフルな、$3999 コンフィグレーション・モデルは、3.5GHz 6-Core Intel Xeon E5 プロセッサおよび、16GB 1866MHz DDR3 ECC メモリ、AMD FirePro D500 GPU with 3GB GDDR5 VRAM を 2枚、そして  256GB PCIe-Based Flash Storage を搭載する。

As per usual, customers will be able to configure the pro desktop to their liking through the online Apple Store. It’s my new dream desktop and my only regret is not being able to afford it – at least not without breaking the bank.

いつものように、ユーザーたちは Online Apple Store で、自分の好みに合わせた Mac Pro デスクトップをコンフィグレーションきる。それは、私にとって、夢のよう新しいデスクトップなのだが、購入するだけの余裕が無いのが残念だ。 そんなことしたら、破産してしまうよ。

ーーーーー

imageカッコいいですねぇ~~~ Gold Mac Pro。 日本なら、聚楽第の茶室にも似合いそうですし、エジプトならツタンカーメンの黄金マスクの隣に置けそうな感じがします。そして、iPhone を並べてみると、これらだけのスペックが、ほんとうにコンパクトな筐体に収められていることが分かります。 これなら、机の上でも邪魔になりませんが、問題は価格です :) そろそろ、出荷時期になるのですが、Agile_Cat の廻りにも、止まらない人、凸撃する人などなど、たくさん居そうな気がします。みなさん、お財布は大丈夫なのでしょうかね? image

ーーーーー

<関連>

円筒形の Mac Pro : これは 家庭用 ミニ・スパコン なのだ!
Mac の 8つの隠し機能 : スクリーン・キャプチャ や タブ操作など
Apple WWDC 最新予測 : 新しい Mac と iOS 7 が目玉か?
SimCity for Mac は 7月 11日 までに出荷される!

Nvidia と Citrix がチームを組んでドライブする、クラウド・グラフィック・パワーとは?

Posted in .Selected, Cloud Stack, Post-PC by Agile Cat on May 18, 2012

Nvidia, Citrix Bringing Graphics Power to the Cloud
http://wp.me/pwo1E-4e9
Mike Barton posted – May 16, 2012
http://www.wired.com/cloudline/2012/05/nvidia-citrix/

_ Cloud Line

The chip giant Nvidia has combined forces with Citrix to deliver graphics processing power from the cloud.

チップ界の大手である Nvidia は、グラフィクス処理能力をクラウドから提供するために、Citrix との連携を深めている。

Nvidia has teamed with Citrix to bring 3D-capable hardware-based graphics processing to the cloud. Image: Courtesy of Citrix

The companies have teamed up to integrate Nvidia’s new virtual GPU technology with Citrix’s XenDesktop and XenServer hypervisor desktop virtualization offering to “[extend] GPU capability beyond power users like design engineers and radiologists to other workers in the organization who need access to large 3-D models but don’t require the power of a dedicated graphics card.”

この両社はチームを構成することで、Nvidia が新たに開発した 仮想 GPU テクノロジーを、Citrix の XenDesktop と XenServer ハイパーバイザー仮想デスクトップに統合していく。それにより、たとえばデザイン・エンジニアや放射線技術者といった、いわゆるパワーユーザーの要求をも凌駕する、[extend] GPU の能力を提供していく。 通常、それらのユーザーは、巨大な 3-D モデルへのアクセスを必要とするが、この新しい方式では、専用のグラフィックス・カードも不要となる。

But the new virtual graphics power is not quite on-demand just yet. The 3-D-capable VGX cloud platform, which holds up to four Kepler GPUs with 16GB, will only be available as joint beta trials that are not expected until the end of the year.

ただし、この新しい仮想グラフィック・パワーの需要は、まだ、それほど大きくない。最大で 4つの Kepler GPU と 16GB のメモリを擁する、この 3-D対応 VGX クラウド・プラットフォームは、ジョイント・ベータとしてのみ利用できるものであるが、その提供も年末まで待たされると予想されている。

“Scalability of this new technology looks very promising. While GPU sharing has been available for some time with XenApp HDX 3D, it has been limited to DirectX-based applications compatible with Windows Server 2008 R2 Remote Desktop Services (RDS), with scalability of no more than 10 or 12 users per high-end graphics card,” Citrix’s Derek Thorslund writes in a blog post. This new offering runs on standard Windows 7 virtual desktops and supports both DirectX- and OpenGL-based applications, he added.

image「この、新しいテクノロジーにおけるスケーラビリティは、とても有望なものと思える。XenApp HDX 3D を用いた GPU 共有が可能であるが、Windows Server 2008  R2 Remote Desktop Services(RDS)コンパチブルである DirectX ベース・アプリケーションにより、ハイエンド・グラフィックカードごとのユーザーが、10~12人に制限されてしまう」と、 Citrix の Derek Thorslund はブログにポストしている。 この、新しい考え方により、標準的な Windows 7 仮想デスクトップを走らせ、また、DirectX と OpenGL をベースとした、アプリケーションをサポートできると、彼が付け加えている。

And cost is a key consideration. “We expect our NVIDIA VGX-accelerated XenDesktop platform to be able to serve up to 100 users with a single multi-GPU graphics card, improving user density on a single server by an order of magnitude and slashing the cost of a 3D graphics capable virtualized PC to under $1,000,” Thorslund writes.

そして、最大の懸案はコストである。 「 私たちが期待するのは、この Nvidia VGX によりアクセラレートされる XenDesktop プラットフォームが、1枚のマルチ GPU のグラフィックス・カードを用いて、最大で 100 ユーザーをサポートすることだ。それにより、シングル・サーバーにおけるユーザー密度を一桁ほど改善し、また、仮想 PC による 3D グラフィクス処理コストを、$1,000 以下に切り下げられると、Thorslund は書き加えている。

While the VGX cloud platform is intended for enterprise applications, Nvidia plans to use it for cloud gaming.

この、VGX クラウド・プラットフォームは、エンタープライズ・アプリケーションを対象としているが、Nvidia ではクラウド・ゲーミングへの活用も計画している。

But with the VGX platform not coming to trials until the end of the year, Citrix highlights its new release of XenDesktop HDX 3D Pro — part of XenDesktop 5.6 Feature Pack 1 — which will ship in June. Thorslund writes: “This new release is the first solution on the market to leverage NVIDIA VGX for faster frame buffer access. XenDesktop 5.6 FP1 HDX 3D Pro provides a very responsive user experience, even over 1.5 Mbps T1 connections.”

この VGX プラットフォームのトライアルは年末まで待たなければならないが、6月の出荷が予定される XenDesktop HDX 3D Pro(XenDesktop 5.6 Feature Pack 1 の一部)を、Citrix は強調している。「 この新しいリリースは、さらに高速なフレーム・バッファ・アクセスを NVIDIA VGX で実現するための、マーケットへ向けた最初のソリューションになる。 XenDesktop 5.6 FP1 HDX 3D Pro は、1.5 Mbps T1 に接続するときであっても、きわめて高速で応答が可能な、ユーザ・エクスペリエンスを提供する 」と、Thorslund は書いている。

“And it is ‘vGPU ready,’ meaning that it will be compatible with XenServer VGX-based GPU hardware virtualization when available,” he said.

「そして、vGPU 対応が意味するのは、それが利用可能になるときの、XenServer VGX ベース GPU ハードウェアによる仮想化の実現である」と、彼が発言している。

 

 

ーーーーー

TAG indexこれは、かなり強力なタッグになりそうですね。 ここまでリモート・デスクトップのテクノロジーが進んでしまうと、手元にパワフルな PC を置く必要性さえ、ほんとうに消えてしまうのでしょうね。 Agile_Cat 的には、あの SimCity 4 が、そしてウワサの New SimCity が、リモートで動いてくれるというバラ色の未来を夢見てしまう、そんなステキなニュースだと喜んでしまいます。 なお、このアイコンは、新たに作った [Post-PC] カテゴリへのリンクとなります。 右ペインにも貼っていますので、ぜひ、ご利用ください。 ーーー  __AC Stamp 2

ーーーーー

<関連>

DELL による Wyse の買収は、Post-PC へ向けた新たなシフトなのか?
PC という用語は、もはや Personal Cloud と解釈すべきだ !
CloudOn 2.0 は、iPad に Microsoft Office を取り込んでしまうのだ!
NVIDIA Tegra 3 アーキテクチャは、4-PLUS-1 という名前になる!
AppMobi の狙いは、Mobile + OSS + HTML5 の惑星大直列なのだ!

 

 

 

GPGPU を用いたソートについて考える – James Hamilton

Posted in Amazon, Big Data, James Hamilton, Parallel by Agile Cat on December 22, 2010

GPGPU Sorting
Perspectives
James Hamilton’s Blog
http://perspectives.mvdirona.com/2010/12/16/GPGPUSorting.aspx

Years ago I believed that incorrectly believed special purpose hardware was a bad idea. What was a bad idea is high-markup, special purpose devices sold at low volume, through expensive channels. Hardware implementations are often best value measured in work done per dollar and work done per joule. The newest breed of commodity networking parts from Broadcom, Fulcrum, Dune (now Broadcom), and others is a beautiful example of Application Specific Integrated Circuits being the right answer for extremely hot code kernels that change rarely.

何年か前のことだが、特殊な目的のハードウェアは好ましくないという、間違った考え方を持っていた。 何が良くないかといえば、コストのかかるチャネルを介して販売される、特別な用途のための、少量生産の高額なデバイスである。 効率のよいハードウェア実装とは、コストとロットをベースに測定するときに、最も大きな価値をもたらすのが一般である。 Broadcom/Fulcrum/Dune(現在は Broadcom)などから提供される、一般的なネットワーク・パーツといった系譜は、Application Specific Integrated Circuits(ASIC)の美しい事例であり、きわめてホットで変化しにくいコードをカーネルとする際の、正しい回答である。

I’ve long been interested in highly parallel systems and in heterogeneous processing. General Purpose Graphics Processors are firmly hitting the mainstream with 17 of the Top 500 now using GPGPUs (Top 500: Chinese Supercomputer Reigns). You can now rent GPGPU clusters from EC2 $2.10/server/hour where each server has dual NVIDIA Tesla M2050 GPUs delivering a TeraFLOP per node. For more on GPGPUs, see HPC in the Cloud with GPGPUs and GPU Clusters in 10 minutes.

私は長い期間にわたり、パラレル・システムとへトロジニアスな処理に、強い興味を持ち続けてきた。 いまや、スーパーコンピュータ Top 500 において、17 種類のGeneral Purpose Graphics Processors 採用され、主流となるコンセプトに対して着実に打撃を与えている(Top 500: Chinese Supercomputer Reigns)。 そしていま、ノードごとに 1 TeraFLOP を提供する、Dual NVIDIA Tesla M2050 GPUs と搭載した EC2 サーバー($2.10 server/hour)により、GPGPU クラスタを借りることができる。 GPGPU の詳細については、HPC in the Cloud with GPGPUs および GPU Clusters in 10 minutes を参照して欲しい。

注記: 上記の 17の意味がよく分けりませんと、ここにコメントを書いていましたが、@kitayama_t さんと @kame355 さんが調べてくださり、Cell の 6種類 (7, 49, 120, 207, 208, 209) および、NVIDIA の 10種類 (1, 3, 4, 28, 72, 88, 102, 117, 145, 403)、そして ATI Radion の1種類 (22) の合計で、17種類の意味だと判明しました。 有難うございます! (参考 ⇒ http://bit.ly/gba93e

Some time ago Zach Hill sent me a paper writing up Radix sort using GPGPUs. The paper shows how to achieve a better than 3x on the NVIDIA GT200-hosted systems. For most of us, sort isn’t the most important software kernel we run, but I did find the detail behind the GPGPU-specific optimizations interesting. The paper is at http://www.mvdirona.com/jrh/TalksAndPapers/RadixSortTRv2.pdf and the abstract is below.

しばらく前のことだが、GPGPU を用いた Radix ソートに関するドキュメントを、Zach Hill から送ってもらった。 そのペーパーに記されているのは、Nvidia GT200 をホストするシステム上で、3倍の性能を達成する方式である。 大半のケースにおいて、ソートは最重要のソフトウェア・カーネルではないが、GPGPU 固有の最適化した際に、その背景に興味深い事柄が広がるのを見つけた。 そのペーパーの Abstruct を以下に記す。また、URL は http://www.mvdirona.com/jrh/TalksAndPapers/RadixSortTRv2.pdf である。

Abstract.

This paper presents efficient strategies for sorting large sequences of fixed-length keys (and values) using GPGPU stream processors. Compared to the state-of-the-art, our radix sorting methods exhibit speedup of at least 2x for all generations of NVIDIA GPGPUs, and up to 3.7x for current GT200-based models. Our implementations demonstrate sorting rates of 482 million key-value pairs per second, and 550 million keys per second (32-bit). For this domain of sorting problems, we believe our sorting primitive to be the fastest available for any fully-programmable microarchitecture. These results motivate a different breed of parallel primitives for GPGPU stream architectures that can better exploit the memory and computational resources while maintaining the flexibility of a reusable component. Our sorting performance is derived from a parallel scan stream primitive that has been generalized in two ways: (1) with local interfaces for producer/consumer operations (visiting logic), and (2) with interfaces for performing multiple related, concurrent prefix scans (multi-scan).

このペーパーが記すのは、GPGPU ストリーム・プロセッサを用いて、固定長の Key(および Value)で構成される、膨大なシーケンスを効率よくソートするためのストラテジである。 最先端とされる方式と比較して、私たちの Radix ソートは、すべての世代の NVIDIA GPGPU において、少なくとも 2倍の性能を発揮し、また、現行の GT200 ベース・モデル に対して3.7 倍のスピードアップを果たした。 私たちの実装では、4億 8200万の Key-Value セットおよび、5億 5000万のキー(32 Bit)を、毎秒ソートできることが証明れた。 ソートという問題ドメインに関して、私たちのソーティング・プリミティブは、プログラミングに対応する各種のマイクロ・アーキテクチャにおいて、最速を達成するものと信じている。 これらの結果から、GPGPU ストリーム・アーキテクチャのためのパラレル・プリミティブの、これまでとは異なる系譜が喚起される。そこでは、再利用が可能なコンポーネントの柔軟性を維持しながら、メモリとコンピューティグのリソースを、さらに効率よく利用できる 。 私たちのソートにおけるパフォーマンスは、2つの方式により生成されるパラレル・スキャン・ストリームのプリミティブからもたらされる。(1) producer/consumer オペレーション(visiting logic)のためのローカルなインターフェイスを用いる。(2)関連性を持つ多数のプリフィックス・スキャンを実行するインターフェイスを用いる。

As part of this work, we demonstrate a method for encoding multiple compaction problems into a single, composite parallel scan. This technique yields a 2.5x speedup over bitonic sorting networks for small problem instances, i.e., sequences that can be entirely sorted within the shared memory local to a single GPU core.

この処理の一部として、圧縮における多様な問題を、単一の複合パラレル・スキャンへと、エンコードする方式を実証する。 このテクニックは、小規模なインスタンスのための bitonic ソーティング・ネットワーク上で、2.5倍のスピードアップをもたらす。つまり、ワン GPU コアのローカルな共用メモリ内で、シーケンス全体がソートされる。

James Hamilton

e: jrh@mvdirona.com
w: http://www.mvdirona.com
b
: http://blog.mvdirona.com / http://perspectives.mvdirona.com

ーーーーー

何が何やらの GPGPU ですが、こうして、だんだんとイメージが掴めてくるのでしょうね。 調べなければならないことが、山のように残されていますが。 ーーー A.C.

ーーーーー

<関連>
スループット指向のアーキテクチャ- Amazon EC2 で GPU を正しく使うために
Big Data – だれが、どこで、使うのか?

スループット指向のアーキテクチャ- Amazon EC2 で GPU を正しく使うために

Posted in Amazon, Big Data, Parallel by Agile Cat on December 6, 2010

GPU Vs CPU Smackdown : The Rise Of Throughput-Oriented Architectures
FRIDAY, DECEMBER 3, 2010 AT 9:20AM
http://highscalability.com/blog/2010/12/3/gpu-vs-cpu-smackdown-the-rise-of-throughput-oriented-archite.html

_highscalability

In some ways the original Amazon cloud, the one most of us still live in, was like that really cool house that when you stepped inside and saw the old green shag carpet in the living room, you knew the house hadn’t been updated in a while. The network is a little slow, the processors are a bit dated, and virtualization made the house just feel smaller. It has been difficult to run high bandwidth or low latency workloads in the cloud. Bottlenecks everywhere. Not a big deal for most applications, but for many high performance applications (HPC) it was a killer.

ドアを開けてリビング・ルームに入り、緑色の古臭いシャギー・カーペットを眺め、その家が改築されていないと理解したとき、私たちの大半がいまだに住んでいる元々の Amazon クラウドは、いろいろな意味において寒々としている。 そのネットワークは少し遅くて、プロセッサも時代遅れであり、仮想化が家を狭く感じがさせた。 そのクラウドでは、広帯域および低レイテンシーのワークロードを動かすことが難しい。そこらじゅうに、ボトルネックがある。 大半のアプリケーションとっては重要な事柄ではないが、それは HPC(high performance applications )を殺してしまうものだった。

In a typical house you might just do a remodel. Upgrade a few rooms. Swap out builder quality appliances with gleaming stainless steel monsters. But Amazon has a big lot, instead of remodeling they simply keep adding on entire new wings, kind of like the Winchester Mystery House of computing.

そんなありふれた家は、リニューアルすべきかもしれない。 いくつかの部屋をアップグレードしよう。 輝きの薄れてきたステンレス・スチールの怪物を、ビルダー・クォリティのアプライアンスに入れ替えよう。 しかし、Amazon が抱えている資産は膨大であるため、大改造を行う代わりに、その全体を覆う新しいツバサが取り付けられた。それは、まるで、コンピューティングにおける Winchester Mystery House のようなものだ。

image

The first new wing added was a CPU based HPC system featuring blazingly fast Nehalem chips, virtualization replaced by a close to metal Hardware Virtual Machine (HVM) architecture, and the network is a monster 10 gigabits with the ability to specify placement groups to carve out a low-latency, high bandwidth cluster. Bottlenecks removed. Most people still probably don’t even know this part of the house exists.

最初に付け加えられたツバサは、きわめて高速な Nehalem チップを前面に押し出した、CPU ベースの HPC システムであり、金属性の Hardware Virtual Machine(HVM)アーキテクチャに取って代わる仮想化と、低レイテンシーと広帯域が保証されるクラスタ・グループを、指定する能力を持った 10ギガビット・モンスターのネットワークを実現する。 これで、ボトルネックが解消される。しかし、ほとんどの人々は、この家に、こんな部分が存在することを知る由もない。

The newest addition is a beauty, it’s a graphics processing unit (GPU) cluster as described by Werner Vogels in Expanding the Cloud – Adding the Incredible Power of the Amazon EC2 Cluster GPU Instances . It’s completely modern and contemporary. The shag carpet is out. In are Nvidia M2050 GPU based clusters which make short work of applications in the sciences, finance, oil & gas, movie studios and graphics.

そして、最新のツバサは美しい。 それは、Expanding the Cloud – Adding the Incredible Power of the Amazon EC2 Cluster GPU Instances において Werner Vogels が記述している GPU(graphics processing unit)クラスタである。 それは、きわめてモダンでコンテンポラリなものである。 もう、シャギーのカーペットはいらない。Nvidia M2050 GPU ベースのクラスタにより、科学/金融/石油/動画/グラフィックスなどの、アプリケーション処理の時間が大幅に短縮される。

To get a feeling of the speed involved read BillMcColl’s comment:

Cloudscale is now able to ANALYZE a SINGLE STREAM of entity events at a rate of TWO MILLION EVENTS PER SECOND (150MB/sec) on an 8-node 10-GigE Amazon cloud cluster. That’s well over ONE TRILLION EVENTS per week.

そのスピード感については、 BillMcColl のコメントを読むと良い:

いまや、クラウド・スケールは、Amazon クラウド・クラスタの 8-node 10-GigE を用いることで、全体的なイベントの SINGLE STREAM を、TWO MILLION EVENTS PER SECOND(150MB/sec)のレートで解析するに至った。それは、ONE TRILLION EVENTS / week を遥かに上回るものだ。

Having both CPU and GPU clusters seems a bit strange. Why have two? Mr. Vogels does a good job explaining the reasoning:

しかし、CPU と GPU の双方でクラスタを持つことは、少し奇妙に思える。 なぜ、2を持つのか? その理由を説明するために、Mr. Vogels は Good Job を提供している:

  • GPUs work best on problem sets that are ideally solved using massive fine-grained parallelism, using for example at least 5,000 – 10,000 threads. To be able build applications that exploit this level of parallelism one needs to enter a very specific mindset of kernels, kernel functions, threads-blocks, grids of threads-blocks, mapping to hierarchical memory, etc. Configuring kernel execution is not a trivial exercise and requires GPU device specific knowledge. There are a number of techniques that every programmer has grown up with, such as branching, that are not available, or should be avoided on GPUs if one wants to truly exploit its power.

  • GPU に適した問題のセットは、たとえば最低でも 5,000-10,000 のスレットを活用し、膨大でキメの細かなパラレルを用いて解決するものが理想的である。 このレベルのパラレルを用いたアプリケーションを構築するためには、カーネルと機能および、スレッド・ブロック、スレッド・ブロック・グリッド、階層メモリ・マップなどの、特定のマインドセットの入力が必要になる。カーネルを実行するためのコンフィグレーションは、些細な処理ではなく、また、GPU デバイス固有の知識を必要とする。たとえば、バランシングのような、すべてのプログラマが育ててきた数多くのテクニックが、そこでは利用できない。 また、GPU の真のパワーを活用するのであれば、それらは排除されてしまう。

  • Modern CPUs strongly favor lower latency of operations with clock cycles in the nanoseconds and we have built general purpose software architectures that can exploit these low latencies very well.  Now that our ability to generate higher and higher clock rates has stalled and CPU architectural improvements have shifted focus towards multiple cores, we see that it is becoming harder to efficiently use these computer systems. One trade-off area where our general purpose CPUs were not performing well was that of massive fine grain parallelism. Graphics processing is one such area with huge computational requirements, but where each of the tasks is relatively small and often a set of operations are performed on data in the form of a pipeline. The throughput of this pipeline is more important than the latency of the individual operations. Because of its focus on latency, the generic CPU yielded rather inefficient system for graphics processing. This lead to the birth of the Graphics Processing Unit (GPU) which was focused on providing a very fine grained parallel model, with processing organized in multiple stages, where the data would flow through.  The model of a GPU is that of task parallelism describing the different stages in the pipeline, as well as data parallelism within each stage, resulting in a highly efficient, high throughput computation architecture.

  • 近代的な CPU により、ナノ秒クロック・サイクルを用いた、低レイテンシー・オペレーションの恩恵が得られる。 そして、この低レイテンシーを活用した、汎用的ソフトウェア・アーキテクチャを構築できる。  しかし、これ以上のクロック・サイクルに関する追求は停滞しているため、CPU アーキテクチャの改善はマルチ・コアへとシフトし、それらのコンピュータ・システムを効率よく使用することが、難しくなり始めている。こうした汎用的 CPU が、効率を高められないトレードオフ領域の 1つは、膨大でキメの細かいパラレル処理であった。 グラフィクス処理は、そのような領域の1つであり、また、膨大なコンピュータ要件を伴う。 しかし、その個々のタスクは比較的に小さいものであり、また、大半のケースにおいて、パイプラインの形態で、オペレーション・セットがデータを処理していく。 このパイプラインのスループットは、個々のオペレーションにおけるレイテンシーより重要なものとなる。レイテンシーにフォーカスしたことで、一般的な CPU は、グラフィックス処理にとって非能率的なシステムとなる傾向にある。Graphics Processing Unit(GPU)の生い立ちをたどると、きわめて粒度の細かいパラレル・モデルへと行き着く。 そこでは、マルチ・ステージで構成された、データのフローを構成した行くための処理が用いられる。 この GPU のモデルは、パイプラインの個々のステージを記述するパラレル・タスクであるだけではなく、きわめて効率的で高スループットな、コンピューティング・アーキテクチャをもたらすものとなる。

The ACM has a timely article about using GPUs for high performance computing ACM:Understanding Throughput-Oriented Architecture by Michael Garland and David Kirk:

ハイパフォーマンス・コンピューティングのための GPU 使用法に関して、ACM Michael Garland と David Kirk が Understanding Throughput-Oriented Architecture というタイムリーな記事を提供している。

Scalability is the programmer’s central concern in designing efficient algorithms for throughput-oriented machines. Today’s architectural trends clearly favor increasing parallelism, and effective algorithmic techniques must scale with hardware parallelism. Some techniques suitable for four parallel threads may be entirely unsuitable for 4,000 parallel threads. Running thousands of threads at a time, GPUs are a powerful platform for exploring scalable algorithms and a leading indicator for algorithm design on future throughput-oriented architectures. GPUs are specifically designed to execute literally billions of small user-written programs per second.

スループット指向マシンのための、効率的なアルゴリズムを設計において、プログラマーたちの主たる関心事はスケーラビリティとなる。 今日におけるアーキテクチャ傾向は、パラレルの促進に対して明らかに有利にはたらき、また、有効なアルゴリズム技法は、並列ハードウェアを用いてスケールを達成するはずだ。 ただし、4 スレッドに適したテクニックは、4,000 のパラレル・スレッドに対して不適切かもしれない。 数千スレッドを同時に実行することで、 GPU はスケーラブルなアルゴリズムの探究において、パワフルなプラットフォームになる。 また、未来のスループット指向アーキテクチャにおける、アルゴリズム設計のための先行指標にもなるだろう。 とりわけ GPU は、ユーザー記述の何十億という小さなプログラムを、毎秒ごとに実行するようデザインされている。

What matters here are two things: tools and jobs.

そして、重要な事柄として、ツールとジョブがある。

First, there’s another exotic tool in the toolbox to solve difficult problems in ways very different than what we are used to. This along side the original recipe cloud, MapReduce, and the CPU Cloud, offers enormous flexibility when architecting systems.

第一に、私たちが慣れ親しんでいるもとは大きく異なる方式で、対象となる問題を解決するためのエキゾチックな別のツールが存在する。 その前方には、本来のクラウド・レシピ/MapReduce/CPU Cloud などがあり、システムを設計する際の、広大な柔軟性を提供していく。

Second, for a surprisingly large number of problems there is now a ready supply of GPU supercomputeryness. With supply there can be demand and not that many people know how to program GPUs. Programming GPUs is a specialized skill. It’s nothing like using your typical threading library, eventing infrastructure, and message passing library. Now that GPU processors are so readily available we’ll need GPU programmers to make use of all that power. Something to think about as a potential career direction.

第二に、驚くほど膨大な問題のための、GPU のスーパーコンピュータ的な用法が、まさにいま、準備できたことになる。 その供給に対する需要が生じるだろうが、多くの人々が GPU プログラミング知っていると言うわけではない。 GPU のプログラミングは、専門的なスキルである。 それは、一般的なスレッディング・ライブラリや、イベント・インフラストラクチャ、メッセージ・パス・ライブラリを使うようなものではない。現時点において、GPU プロセッサが容易に利用できるようになり、そのすべてのパワーを活用するために、私たちは GPU プログラマーを必要とするだろう。 経験に関する潜在的な方向性として、何を考えるべきか。

Related Articles

ーーーーー

High Scalability の Todd Hoff さんは、とても詩的な文章を書くので好きなのですが、写真の選び方もユーモアがあります。 おそらく、GPU 的な空中戦とでも、言いたいのだろうと思います。 原題の Smackdown って、プロレス技の名前なんでしょうかね?

コンテンツの訳は、もう、、、四苦八苦だったのですが、大まかなところは理解できたように思えます。 プログラミングの発想からツールまで、これから大変革が起こるのでしょう。 いやはや、たいへんな時代になってきたものです。

それにしても、この文章と写真のギャップがスゴイ :)ーーー A.C.

%d bloggers like this: