「AI革命」を加速させるNVIDIA – GTC 2017基調講演レポート

NVIDIAは、現地時間の5月8日~11日まで米カリフォルニア州San Joseにおいて、GPUを利用した深層学習やAIなどをテーマとした技術者向け会議「GTC 2017」(GTC:GPU Technology Conference)を開催した。3日目の5月10日には、NVIDIAの創始者兼CEOのジェンスン・ファン氏がキーノートに登壇した。

GPU Technology Conferenceが開催されたSan Joseコンベンションセンター

GTCは、スーパーコンピュータなどのHPC(High Performance Computing:高性能コンピューティング)向けの技術会議として2009年にスタートし、その裾野を機械学習や深層学習、AIへと広げてきた。特に、2012年からの5年間は、CPUの性能向上が鈍化したこともあって、GPUを利用した並列演算に注目が集まるとともに、いまや米国内では大学でいちばん学習したいテーマとなった「AI」(人工知能)では、GPUが不可欠となるなど、GPUコンピューティングは、ずっと身近なものになった。

この5年間は、CPU性能の向上が頭打ちになったこともあり、GPUコンピューティングに注目が集まるようになってきた

この5年で、GTCの参加者は3倍に、GPU関連の開発者は11倍になり、CUDAのダウンロード数は100万件を超えた

GPUコンピューティングによって、AIは大幅な進化を果たし、AIに関心を持つ企業や学生も飛躍的に増えた

次世代GPUアーキテクチャ"Volta"ベースのTesla V100をお披露目

さて、キーノートスピーチの目玉として、NVIDIAの次世代GPUアーキテクチャとなる"Volta"(ヴォルタ:開発コードネーム)が公開された。"Volta"は、これまで"グラフィックスプロセッサ"の汎用並列処理性能を向上させてきた流れから飛び出し、AIや深層学習へアーキテクチャレベルで最適化を図るアプローチに打って出た。

次世代GPUアーキテクチャ“Volta”のフラグシップチップGV100を搭載するTesla V100を発表

Tesla V100を披露するジェンスン・ファンCEO

Tesla V100は、CUDAコアに加え、テンソル(Tensor:多次元配列)演算処理のための専用コアであるTensorコアを統合し、機械学習におけるトレーニングや推論の性能向上を大幅に引き上げることが可能だ。NVIDIAは"Volta"アーキテクチャにおいて、Tensorコアを利用した深層学習処理への最適化を図るべく、新たな命令セットを追加するなど、大幅なアーキテクチャ変更を施している。

例えば、従来のGPUアーキテクチャにおいて、4×4のマトリックス演算を行なう場合、1階層ごとに演算処理を行ない、多次元配列演算を完成させる必要があったが、Tensorコアを採用したVoltaアーキテクチャでは、4×4のマトリックス演算を行なう専用ユニットを搭載することで処理の高速化を実現する。

4×4のマトリックス演算を行なう専用ユニット「Tensorコア」を搭載することで、Googleの深層学習フレームワークとなるTensor Flowでは、Pascal世代のGPU利用時に比べ、12倍の性能向上を果たす

Googleの深層学習フレームワークとなるTensor Flowでは、Pascal世代のGPU利用時に比べ、12倍の性能向上を果たすという。このTensorコアを、Tesla V100に搭載されるGPUコアの"GV100"では、SM(Stream Processor)ごとに8基、合計640基のTensorコアを統合し、最大120TFLOPSのTensor演算性能を備えるとしている。

GV100では、TSMCの12nm FinFETプロセス「12nm FFN」で製造され、211億トランジスタで5,120基のCUDAコアを統合、7.5TFLOPSの64bit浮動小数点演算性能(FP64)、15TFLOPSの32bit浮動小数点演算性能(FP32)を実現。メモリには、4,096bitインターフェースで900GB/sの帯域を実現するHBM2メモリを16GB搭載するほか、GPU間やCPUとの接続に利用されるNVIDIA独自のインターコネクト技術NVLinkも300GB/sの第2世代へと進化を果たしている。

これにより、Tesla V100では、HPC用途の汎用演算において、Pascal世代比で1.5倍の浮動小数点演算性能を実現するほか、深層学習のトレーニングでは12倍、推論では6倍のテンソル浮動小数点演算性能を実現するとしている。なお、GV100のダイサイズは815平方mmと、半導体の露光限界ギリギリのサイズで、フアン氏によれば「30億ドルの予算をかけて開発されたチップである」という。

GPUコアGK110GM200GP100GV100
アーキテクチャKeplerMaxwellPascalVolta
トランジスタ数71億個80億個153億個211億個
ダイサイズ551平方mm601平方mm610平方mm815平方mm
製造プロセス28nm28nm16nm FinFET12nm FFN
SM15245680
TPC15242840
SMあたりのFP32コア1921286464
FP32コア合計2880307235845120
SMあたりのFP64 CUDAコア6443232
FP64コア合計9609617922560
SMあたりのTensorコア - - - 8
Tensorコア合計 - - - 640
GPU Boostクロック810/875MHz1114MHz1480MHz1455MHz
FP32 TFLOPS(ピーク時)5.046.810.615
FP64 TFLOPS(ピーク時)1.682.15.37.5
Tensorコア TFLOPS(ピーク時)NANANA120
Texture Units240192224320
メモリインタフェース384-bit GDDR5384-bit GDDR54096-bit HBM24096-bit HBM2
メモリ容量12GB24GB16GB16GB
L2キャッシュ1536KB3072KB4096KB6144KB
SMあたりの共有メモリ16KB/32KB/48KB96KB64KB最大96KB
合計レジスタファイル3840KB6144KB14336KB20480 KB
TDP235W250W300W300W

またNVIDIAは、Tesla V100を8基搭載し、960テンソルTFLOPSの演算性能を実現する。深層学習向けサーバー「DGX-1 with Tesla V100」の受注を開始した。これはすでに提供中の「DGX-1」のアクセラレータをTesla V100に置き換えたものになる。供給が開始される2017年第3四半期までは、PascalアーキテクチャのTesla P100を搭載した現行製品を提供し、後日Volta版と交換する無償アップグレードにも対応する。価格もPascal版と同じ149,000ドルに据え置かれている。

Tesla V100を8基搭載し、960テンソルTFLOPSの演算性能を実現し、サーバー400台分の性能を持つ深層学習向けサーバー「DGX-1 with Tesla V100」

さらに、スタートアップや個人用の深層学習向けサーバーとして、2CPU構成で4基のPCI Express版のTesla V100を搭載する「DGX STATION with Tesla V100」を発表した。価格は69,000ドル。このほか、クラウド企業や研究機関用に、GPUクラウドサーバーの「HGX-1 with Tesla V100」も追加。用途や規模に応じて、2CPU:8GPU、2CPU:4GPU、1CPU:2GPUの構成を選ぶことができる。

スタートアップや個人用の深層学習向けサーバーとして、2CPU構成で4基のPCI Express版のTesla V100を搭載する「DGX STATION with Tesla V100」も追加

Tesla V100用の大型ラジエターを天板分に格納し、水冷方式によってVoltaの性能を最大限引き出すDGX STATION with Tesla V100

クラウドコンピューティング用の「HGX-1 with Tesla V100」は、下部の1U CPUサーバーとGPUアクセラレータによって構成され、用途に応じてCPUやGPUの構成を選ぶことができる

トヨタがDRIVE PX Xavierで自動運転車両を開発へ

引用元:この記事を読む

この商品の在庫を見てみる

ドスパラ

▼タップして詳細をみる▼

コメントは受け付けていません。

サブコンテンツ

このページの先頭へ