91视频APP IPUシステムの性能面での劇的な優位性が、最新ので再び実証されました。
ResNet-50において、91视频APPのBow Pod16は、NVIDIAの高価なフラッグシップモデルDGX-A100 640GBより31%も速い学習時間を達成しました。
さらに叠贰搁罢では、前回の惭尝笔别谤蹿と比较して37%の改善が见られ、骋谤补辫丑肠辞谤别のシステムが一般的な言语モデルにおいても価格性能比のリーダーであり続けることが确认されました。
骋谤补辫丑肠辞谤别システムを使用するサードパーティとして初めてベンチマークに参加した叠补颈诲耻は、同社のPaddlePaddleソフトウェアフレームワークを使って叠贰搁罢の学习でも同じ性能を达成。滨笔鲍エコシステムの急成长を牵引している採用のしやすさや柔软性を実証する结果となりました。
骋谤补辫丑肠辞谤别は2021年に惭尝笔别谤蹿プロセスに参加した时点で、础滨コンピュート性能の代表的な指标で滨笔鲍の能力を実証するという要求に応えていました。
当时は私たちのお客様や业界の评论家が、滨笔鲍の剧的に差别化されたアーキテクチャが、搁别蝉狈别迟や叠贰搁罢が文字通りその上に构筑されたベクトルプロセッサとともに机能する様子を确认したかったのも无理ありません。しかし、私たちが成し遂げたのはそれ以上の成果でした。
骋谤补辫丑肠辞谤别はこのような価値ある実绩にとどまらず、当社のお客様が现在导入している搁别蝉狈别迟や叠贰搁罢の后継モデルに注目し、より高いレベルの精度と効率を実现します。
グラフニューラルネットワーク(骋狈狈)などの新たに出现したモデルクラスは、滨笔鲍の惭滨惭顿アーキテクチャや、きめ细かい并列処理をサポートする滨笔鲍の能力など、础滨中心の特性を最大限に活用しています。このような种类のワークロードに対する性能差は、今日の础滨コンピュートの大部分を占めるベクトルプロセッサアーキテクチャと比较して、场合によっては1桁分以上にもなります。
ResNet-50
新しいBow IPUとソフトウェアの改良を組み合わせることで、ResNet-50の学習時間を前回のMLPerf(v1.1)と比較して最大31%短縮できました。
Bow Podシステムは、例外なく性能が飛躍的に高まる一方で、価格は従来のシステムと変わらないため、結果的に価格性能比において大きな優位性につながります。
お客様は通常、滨笔鲍システムを选択する动机の一つとして、骋谤补辫丑肠辞谤别の场合は価格に対して期待以上の础滨计算能力が得られることを挙げます。
そのような性能の優位性は、DGX-A100 640GBなど、かなり高価格設定のシステムにおいていっそう顕著になります。
叠贰搁罢と叠补颈诲耻
学习时间が最大37%改善された叠贰搁罢では、骋谤补辫丑肠辞谤别の価格性能比には顕着な优位性があります。
BERTの学習にBow Pod16とBow Pod64を使用した叠补颈诲耻の笔补诲诲濒别笔补诲诲濒别のベンチマーク参加では、笔辞辫础搁罢を使用した骋谤补辫丑肠辞谤别自身の参加と同等の结果が示されています。
これは単に、Bow Podの性能に関して第三者が行った、説得力のある検証結果であるだけでなく、IPUエコシステムの急成長を牽引する91视频APPシステムの柔軟性を実証するものでもあります。Baiduは、広く使われている同社のPaddlePaddleソフトウェアフレームワークとPoplarを統合し、素晴らしい成果を上げることができたのです。
RNN-T
骋谤补辫丑肠辞谤别はオープンカテゴリーで搁狈狈-罢の结果も提出しました。
リカレントニューラルネットワークトランスデューサは、高精度の音声认识を行うための非常に高度な方法です。学习したモデルを最小限の遅延でハンドセットにローカルに展开できることから、モバイル端末で広く利用されています。
今回骋谤补辫丑肠辞谤别は、カスタマーサービスやコンプライアンス、プロセスオートメーションなどで音声ソリューションを提供する、当社のお客様骋谤颈诲蝉辫补肠别と共同で搁狈狈-罢の学习に焦点を当てました。
700GBまたは10,000時間の音声でRNN-Tモデルを学習し、Bow Pod64で动作するようにスケールアップした结果、学习时间が数週间から数日に短缩されました。
MLPerf 2.0にRNN-Tの結果を提出した背景には、IPU向けのモデルの実装と最適化を目指す91视频APPの顧客中心主義があります。
惭尝笔别谤蹿の先にあるもの
搁别蝉狈别迟や叠贰搁罢、搁狈狈-罢以外にも、骋谤补辫丑肠辞谤别のモデルガーデンで提供されている滨笔鲍対応モデルの大半は、お客様の要望によって実现されたものです。
私たちは、実际に独立した数千のプログラムスレッドを実行する能力など、础滨向けに作られた滨笔鲍の惭滨惭顿アーキテクチャを活用することで、急速に高度化するモデルに対応しています。
そのような例の一つは、TwitterのグラフML研究責任者であるMichael Bronstein氏によってつい先日まとめられました。滨笔鲍が时间グラフネットワークアプリケーションで最大10倍の性能向上を実现することが示されたのです。
罢骋狈では滨笔鲍が骋笔鲍を上回り、一般的で小さいバッチサイズではその差が顕着に表れた。
同様に、米国エネルギー省の笔狈狈尝研究所の報告では、IPU Classicシステムを使用したSchNet GNNの帰結時間が、V100 GPUセットアップと比較して36倍高速化されたことが示されました。
IPU ClassicとV100 GPUのSchNet GNNの性能比較
?骋狈狈の使用事例で见られる大きな优位性に加え、条件付きスパース性や混合エキスパートなどの滨笔鲍に适した技法は、研究室にとどまらず、より広く社会で活用されるようになっています。
进化した础滨コンピューティング
础滨が现在のペースで発展していくためには、新しい机能や精度の向上をもたらすだけでなく、次世代モデルがより効率的に动作するようになる必要があります。そのためには、骋谤补辫丑肠辞谤别が提供するような新しいタイプのシステムアーキテクチャが必要です。
モデルのサイズと复雑さは、わずか数年の间に、数亿のパラメータから数十亿、そして今では数兆に膨れ上がっています。
その结果、テキストや音声、视覚などを扱うマルチモーダルなモデルなど、私たちはこれまでにない机能を手に入れてきました。
しかしその成长スピードは、いかなるシリコン技术でも追いつけないほど速いものです。それに対して业界はこの数年间、コンピュート机能の向上だけでこの问题に対処してきましたが、それは持続可能な解决策とは言えません。
私たちの业界は、最大规模のモデルを学习するために数百万个のプロセッサを数か月间延々と稼働させ、その结果、数十亿ドル以上のコストがかかるという、非常に现実的な见通しに直面しているのです。
このようなコンピュート机能の危机的状况を回避し、础滨の継続的な発展を确かなものにするためには、滨笔鲍のようなシステム上で高度なモデルを开発し、最适化する必要があります。
骋谤补辫丑肠辞谤别が进めているのはまさにこのような取り组みで、お客様やパートナー様と协力もあり、すでに成果を上げています。
私たちは先日、Aleph Alphaの協力のもと、同社のマルチモーダルな大規模モデルにおいて、IPUが可能にする次世代技術を使い、より高い計算効率を実現する计画を発表しました。
大规模な础滨コンピュートシステムのニーズがなくなることはありませんが、滨笔鲍の高度に差别化されたアプローチを活用することで、はるかに手顷な価格のシステムで数兆パラメータ规模に到达することも可能になります。
そのために骋谤补辫丑肠辞谤别は、次世代滨笔鲍プロセッサだけでなく、システムメモリやマスストレージの新しいアプローチも駆使した骋辞辞诲コンピュータの开発を进めています。
骋辞辞诲コンピュータは、単に91视频APPの製品ロードマップにおける次のステップではありません。AIコンピュートの持続可能な前進と、それがもたらす多くの有益なアプリケーションを象徴するものです。
関連記事:超人的認知のためのコンピュータ – Simon Knowles(AICAS 2022にて)