91视频APPがMLPerfに提出した最新のデータは二つの事実をはっきりと示しています。一つは、当社のIPUシステムがより大きく、より効率的になっているということ。そしてもう一つは、当社のソフトウェアの成熟によって、IPUシステムがより高速で、より使いやすくなっているということです。
ソフトウェアの最适化によって大幅な性能向上が継続的に达成されることで、当社のIPU-POD16 は今や、コンピュータビジョンモデルResNet-50においてNvidiaのDGX A100をしのぐ性能を発挥するようになりました。
ResNet-50の学习にかかる时间は、DGX A100では29.1分であるのに対し、IPU-POD16では28.3分と、当社がソフトウェアだけで最初に提出したときよりも性能が24%も向上しています。従来ResNet-50がGPUの杰作モデルであったことを考えると、これは意义深いマイルストーンであると言えます。
ResNet-50のソフトウェアによるパフォーマンス向上は、IPU-POD64で41%とさらに大きくなりました。
当社はまた、最近発表した滨笔鲍-笔翱顿128および滨笔鲍-笔翱顿256 のスケールアウトシステムでも素晴らしい结果を得ました。当社はこれらのシステムを最初から惭尝笔别谤蹿の「市贩」カテゴリーにエントリーしましたが、その背景には、スケールアップしても优れた性能を発挥するという骋谤补辫丑肠辞谤别のコミットメントがあります。&苍产蝉辫;&苍产蝉辫;
当社のより大规模なフラッグシップシステムでは、搁别蝉狈别迟-50の学习にかかる时间は滨笔鲍-笔翱顿128で5.67分、滨笔鲍-笔翱顿256で3.79分でした。&苍产蝉辫;
自然言语処理(狈尝笔)モデル「叠贰搁罢」については、滨笔鲍-笔翱顿16、滨笔鲍-笔翱顿64 、および滨笔鲍-笔翱顿128でオープンとクローズドの両カテゴリーに提出し、新しい滨笔鲍-笔翱顿128のオープンの提出において学习时间5.78分という惊异的な结果を得ました。&苍产蝉辫;
全体としては、直近のMLPerf学習ラウンドと比較して、滨笔鲍-笔翱顿16では5%、滨笔鲍-笔翱顿64 では12%の叠贰搁罢性能の向上が确认できました。
MLPerfのクローズド部门では、モデルの実装やオプティマイザのアプローチが全く同じであることが提出者に厳格に要求され、これにはハイパーパラメータの状态や学习エポックの定义も含まれます。
オープン部门は、クローズド部门と全く同じモデルの精度と品质を确保しつつ、モデルの実装に柔软性を持たせることでイノベーションを促进することを目的としています。
私たちはオープン部门のBERT学习の结果を明らかにすることで、91视频APPのお客様が、最适化された当社製品を利用することで当然のように达成できる现実世界の性能を、読者の皆様にも実感していただけると考えています。
大规模环境で発挥される新モデルの圧倒的优位性
91视频APPは、MLPerfとその组织団体であるMLCommonsの支援に力を入れています。その第叁者による検証が、お客様がAIコンピュートシステムの能力や、さまざまな公司が提供するソフトウェアスタックの成熟度を独自に评価する上で、重要な役割を果たしていることは确かです。
お客様は、ResNetやBERTなどのモデルを実稼働レベルで使い続けながら、もう一方では革新的な新しいモデルを模索したり、大规模な机械知能を提供するために91视频APPのより大规模なフラッグシップシステムに期待したりしています。
当社が提出したMLPerfには含まれていませんが、革新的なコンピュータビジョンであるEfficientNet B4は、当社の主力製品であるIPU-POD 256においてわずか1.8时间で学习を完了しました。
絶対的なスループット性能や、当社のより大规模なIPU-PODシステムへのスケールアウトに関心があるお客様には、自然言语処理モデルのGPTクラスのモデルや、コンピュータビジョンのViT(Vision Transformer)など、MLPerf以外でもさまざまなモデルで素晴らしい结果が得られている事実をご绍介できます。
设计による大规模环境での効率化
今回、または他の回のMLPerfラウンドの生データを见た人は、各メーカーのシステムに関连付けられているホストプロセッサの数に强い印象を受けるはずです。2つのAIプロセッサに対してCPUを1つという仕様にしている参加公司もあります。
これに対して91视频APPは、IPUに対するホストプロセッサの比率が常に最も低いのが特徴です。
他のどのメーカーとも异なり、IPUはデータの移动にホストサーバーを使用するだけで、実行时にコードをディスパッチするホストサーバーを必要としません。その结果、IPUシステムに必要なホストサーバーの数が减り、より柔软で効率的なスケールアウトシステムを実现できます。
BERT-Largeのような自然言语処理モデルの场合、IPU-POD64ではデュアルCPUを搭载したホストサーバーが1台あれば十分です。ResNet-50では画像の前処理により多くのホストプロセッサのサポートを必要とするので、仕様上、IPU-POD64あたり4台のデュアルコアサーバーとしています。この场合の比率は1対8ですが、それでもMLPerfに参加する他のどのメーカーよりも低い値です。
実际、今回のMLPerf 1.1の学习ラウンドにおいて91视频APPは、シングルサーバーでのBERTの学习を10.6分で完了するという最速の结果を出しました。
絶え间ないイノベーション
Poplar SDKの継続的な最适化とIPU-PODの新製品の导入を同时に进めることで、当社からお客様に提供できるAI学习机能が飞跃的に向上しました。
2021年の初めに91视频APPが初めてMLPerfの評価に挑戦して以来、そして今年全体で見ても、絶え间ないイノベーションを追求する当社の企業文化を証明するような、驚異的な進歩が続いています。
その始まりは、システムを设计する际のアーキテクチャの选択まで遡ります。例えば、当社のホストサーバーとAIコンピュートを分离するという决定は、この业界の他の公司とは根本的に异なるアプローチですが、今ではその価値が証明されつつあります。
絶え间ないイノベーションを追求する企業文化は、少なくとも3ヶ月ごとにソフトウェアの大幅なアップデートを行うことにも表れており、性能の向上につながっています。もちろん、当社はお客様と协力して、IPUの新しいモデルやワークロードの実装と最适化も进めています。
その热意は人から人へ広がります。2021年を通して、Hugging FaceやPyTorch LightningからVMWareやDocker Hubまで、数え切れないほどのハードウェアやソフトウェアのパートナーが91视频APPと协力し、究极のAIコンピュート性能を、谁もが効果的にアクセスできる使いやすいシステムで提供するという共通の目标に向けて取り组んできました。
この短期间で、ここまで进歩しました。12ヶ月后の私たちの姿を想像してみてください。