Arm、プレミアムスマートフォン向けの新コア「Cortex-A76」など披露 – モバイルゲームをターゲットに【COMPUTEX TAIPEI 2018】

英ArmはComputex開催前日となる6月4日に、台北にてPress Conferenceを開催。Cortex-A76/Mali-G76/Mali-V76のIP Suiteを発表した。これについては5月31日に発表されているし、サンフランシスコでもWorkshopが開催されているのだが、広く発表されたという意味では今回が初となる。そんなわけで、台北で行われたPress Conferenceとラウンドテーブルの内容をお届けしたい(Photo01)。

成長するモバイルゲーミング市場を見据えた新製品

まずは発表会の内容から。同社のIPを搭載した製品はすでに1200億個出荷されており、マーケットシェアは39%に達するとしている(Photo02)。

  • Photo02:別の資料では、同社のIPを搭載した製品は全世界の70%の人に使ってもらっている、という数字もあった。ちなみに出荷数量にはCortex-MやCortex-Rを利用した組み込み向けや、それ以前のARM 7/9/11を搭載したものも含んでの数字と思われる

この中でも稼ぎ頭というか同社にとって大きなマーケットはMobile/Consumer向け製品で、ここのTAMは2026年には770億ドルに達する、と推定されている(Photo03)。その中でも成長著しい、と推定されているのがMobile Gamingのマーケットだ、というのが氏の説明である(Photo04)。

  • Photo04:すでにMobile GamingはPCとConsoleをあわせた程度のサイズに近く、2021年にはゲーム市場全体の6割に達する、という予測もされている

今回のComputexでもASUSからゲーミングスマートフォンとして、ROG Phoneがなんてもの発表されるあたり、このマーケットが急速に伸びつつあるのは間違いない。

こうしたマーケット動向をにらんで、同社が2019年のPremium Mobile向けとして提供するのが今回の3つのIPということになる(Photo05)。いずれもハイエンド向けという位置付けだ。

  • Photo05:厳密にはArm ML ProcessorやArm OD Processorもここには含まれているが、これがPremium Mobileに必須となるかどうかは正直分からない

機械学習のパフォーマンスが前世代比で4倍

まずはProcessorのCortex-A76について。Cortex-A76は、Cirtex-A75と比べても35%もの性能向上を果たした製品、とされる(Photo06)。具体的には35%の性能改善と40%の性能/消費電力比改善が果たされているほか、ML(要するにDNNの処理)の性能が4倍になっている。

  • Photo07:性能は当然動作周波数にも関係してくるが、10nmのCortex-A75が2.8GHz駆動、7nmのCortex-A76が3GHz駆動なので、IPCという観点でも3割ほど改善している計算になる

なぜ4倍にもなるのか、という話は後述するとして、これを7nm世代で実現するのがCortex-A76だ。Cortex-A76はDynamIQ対応なので、当然Cortex-A55との組み合わせでbig.LITTLEを構成する形になるが、これにともないCortex-A55のL2容量も増加することになったそうだ(Photo08)。

  • Photo08:これは想定されるワークロードそのもののメモリ必要量が増えた、ということもあるだろうし、性能の底上げを図りたかったということもあるのだろう

この結果として、Single Thread Performanceとbig.LITTLEのトータルパフォーマンスの両方とも、Cortex-A73世代比で2倍ほどになったという(Photo09)。

第2世代のBifrostでゲーム向けの性能が1.5倍になった「Mali-G76」

Cortex-A76の話はここまでにして、次はMali-G76。こちらは第2世代のBifrostをベースにしたハイエンド向け製品である。「第2世代」というのは2018年の3月に発表されたMali-G52から搭載された改良型のBifrostのことで、Execution Engineが8way SIMTになったほか、Int 8×4の演算を可能とし、Texture UnitをDual構成にしたのが主な違いである。この結果として、1.5倍ものGaming Performanceが獲得できたとする(Photo10)。

  • Photo10:同一周波数で比較するとそこまでの差はないのだが、実際には7nmプロセスを使うことで省電力化が可能になり、その分動作周波数を引き上げられるのもここには加味されていると思われる

具体的には30%の性能向上と30%の性能/電力比改善、それと2.7倍のDNNの処理性能向上を実現したと説明している。面白いのはこれがMali-G72と同一のプロセスノード・動作周波数での結果であることだ。

構成としては最大20 Shaderまでサポートしており、数字だけ見れば最大32 ShaderのMali-G72から減っていることになるが、Shader 1個あたりのSIMTエンジンの数が倍なので、Mali-G72的に数えれば実際は40 Shader相当になる計算である。これにより、より高いGaming Performanceを獲得できる、としている。

8K60fpsコンテンツもターゲットとした「Mali-V76」

最後がVideo ProcessorのMali-V76である。こちらは8K60fpsコンテンツのデコードを念頭においた製品であり、ラフに言って従来比2倍のデコード性能が搭載されている(Photo13)。

  • Photo12:ただし性能改善はDecodeのみ。Encodeで8Kは「いつそれが要求されるようになるか不明」だそうで

「なぜ8Kがターゲットなのか」という疑問について、Nayampally氏曰く「このIPを搭載したモバイルデバイスやDigital TVは2019年に製造され、2020年にエンドユーザーの手元に届くことになる。その時にはオリンピックなど8Kコンテンツが既にあるだろう」と返ってきた。またxR機器だと4K120fpsのDual Displayといった仕様が要求されるようになってくるため、8K60fpsの性能が必要、という話であった。

具体的にはデコード性能が2倍、エリアサイズが40%削減となっているが、エリアサイズに関してはプロセスの微細化による影響が大きいのではないかと思われる(Photo14)。

  • Photo14:エンコードに関してはクオリティ改善がなされただけで、エンコード速度自体はMali-V61と同等

先のPhoto05の中身をBreakdownしたのがこちら(Photo15)であるが、明らかに関係ないものも入っており、言ってみれば全部入り構成という感じだ。ここからOEM各社は自社に必要なものだけを抜き出して、2019年のPremium Mobile向けSoCを開発してゆくことになるのだろう。

  • Photo15:ちなみにCellilar RadioのCortex-R8は、Armがそういうソリューションを提供しているわけではなく、モデムを開発している各社がコントローラにCortex-R8を使っているというだけの話だそう

Cortex-A72にかなり近いCortex-A76

さて、発表会の説明はこの程度であるが、この発表会の後でNayampally氏にもう少し細かく話を聞くことが出来たので、先日開催されたDeep Diveの資料と合わせてもう少し細かい話を紹介したい(Photo16)。

Cortex-A76は、同社としては初めて4命令デコーダを搭載した製品である(Photo17)。構造的にはCortex-A72にかなり近いものになっており、Cortex-A72は3命令デコードなのを4命令デコードに拡張した「だけ」というと語弊があるが、そう大きな拡張にはなっていない。

命令キューのサイズとかRegister Windowsの数などは非常に慎ましやかである。またSMTのサポートの予定も無い、とはっきり断言している。Nayampally氏によればキーワードはEfficiencyとのこと。

例えばSMTをサポートすると、どうしても必要とされるリソースが増えることになる。またIn-Flight状態の命令も増えるから、Register Windowsの数も増やさないとつじつまが合わない。こうした対応は全てCortex-A76の様なターゲットには高コストになる、という判断だそうだ。

同じようにALUは3つのまま据え置きなのも、ワークロードを考えると4つにする必要は無い、という考えから。ただそうは言っても拡張すべきところはしてあり、ASIMDの2つのパイプは128bit幅に、加えてInt 8のサポートを追加したことで、ML(というかDNNにおけるMatrix 8x8の処理)が従来比4倍速になっている。従来はこれを32bit幅でやっていたのを8bitにしたのがこの高速化の主要因である。

Cortex-A76はあくまでも「モバイル」向け

ただ同社はこのCortex-A76をあくまでモバイル向けと位置付けている。「Skylake比で90%の性能」といった数字もあるが、これはあくまでモバイルワークロードの場合であって、必ずしもサーバーでも同じように性能が出るとは限らない。

これに関してNayampally氏曰く「サーバーかデスクトップ/モバイルか、は単にコアだけでなくコアの周辺のさまざまなものが関係してくる」と前置きした上で、「アーキテクチャ的に言えば、サーバーワークロードに必要とされるテクノロジーは全て搭載してはいるが、サーバーはターゲットとしていない」という返事であった。

おそらくは、サーバーワークロードではよりAGUの利用頻度が高まるとか、より並列性が高まってALUの利用頻度が上がる、あるいはIn-Flight状態になる命令数が増えるといった、現状のCortex-A76の想定したバランスとあわないのではないかと思われる。

こうした用途について「Cortex-A75はサーバーワークロードに向けた製品だ。そもそもサーバー向けの場合、モバイル向けよりももっとアーキテクチャ刷新の時間が長めになる。ということなので、当面はCortex-A75をサーバー向けに推奨してゆく」という話であった(Photo18)。

  • Photo18:非サーバーワークロードでの性能比較。同一プロセス/動作周波数における性能比である

また製品バランスについて、Cortex-A55(In-Order, 2 issue)とCortex-A76(Out-of-order, 4 issue)ではギャップが大きいのでは? という質問に対しては、DynamIQのConfigurationで変更可能であり、いまのところ中間に入るようなコアは想定していないという話だった。

Cortex-A55とCortex-A76では性能ギャップは大きいが、Cortex-A55はBaselineの製品で、これは広範に使われる製品であり、当面刷新の予定はないとか。トータルの性能は、DynamIQにおけるCortex-A55とCortex-A76のコアの比率を変更すれば好きなように調整可能である、という話であった(Photo19)。

  • Photo19:従来Cortex-A55+Cortex-A75構成だった製品をCortex-A76に切り替えることで、より高いピーク性能と幅広い性能バランスが得られる、とする。

引用元:この記事を読む

この商品の在庫を見てみる

ドスパラ

▼タップして詳細をみる▼

コメントは受け付けていません。

サブコンテンツ

このページの先頭へ