ファーウェイ、ビッグモデル時代の新しいAIストレージ製品を発表

[中国、深セン、2023年7月14日]本日、ファーウェイは大規模モデル時代に向けた新しいAIストレージソリューションを発表し、基本的なモデルトレーニング、業界固有のモデルトレーニング、セグメント化されたシナリオでの推論に最適なストレージソリューションを提供します。新しい AI 機能を解放します。

大規模モデル アプリケーションの開発と実装において、企業は 4 つの大きな課題に直面します。

まず、データの準備に時間がかかり、データソースが分散しており、集計が遅く、数百テラバイトのデータの前処理に約 10 日かかります。次に、大規模なテキストおよび画像データセットを含むマルチモーダル大規模モデルの場合、大規模な小さなファイルの現在の読み込み速度は 100MB/秒未満であり、その結果、トレーニング セットの読み込み効率が低くなります。 3 番目に、大規模なモデルの頻繁なパラメーター調整と不安定なトレーニング プラットフォームにより、約 2 日ごとにトレーニングが中断されるため、トレーニングを再開するにはチェックポイント メカニズムが必要となり、回復に 1 日かかります。最後に、大規模モデルの高い実装しきい値、複雑なシステム セットアップ、リソース スケジューリングの課題、および GPU リソース使用率が 40% を下回ることがよくあります。

ファーウェイは、大規模モデル時代の AI 開発のトレンドに沿って、さまざまな業界やシナリオに合わせたソリューションを提供しています。 OceanStor A310 Deep Learning Data Lake Storage と FusionCube A3000 トレーニング/推論スーパーコンバージド アプライアンスを紹介します。 OceanStor A310 ディープ ラーニング データ レイク ストレージは、基本的なデータ レイク シナリオと業界レベルの大規模モデル データ レイク シナリオの両方をターゲットにしており、データ集約、前処理からモデル トレーニング、推論アプリケーションまでの包括的な AI データ管理を実現します。 OceanStor A310 は、単一の 5U ラックに収まり、業界をリードする 400GB/秒の帯域幅と最大 1,200 万 IOPS をサポートし、最大 4,096 ノードまでの線形拡張性を備え、シームレスなクロスプロトコル通信を可能にします。 Global File System (GFS) は、リージョン間のインテリジェントなデータウィービングを促進し、データ集約プロセスを合理化します。ニアストレージ コンピューティングにより、データに近い前処理が実現され、データの移動が削減され、前処理効率が 30% 向上します。

FusionCube A3000 トレーニング/推論スーパーコンバージド アプライアンスは、業界レベルの大規模モデルのトレーニング/推論シナリオ向けに設計されており、数十億のパラメーターを持つモデルを含むアプリケーションに対応します。 OceanStor A300 高性能ストレージ ノード、トレーニング/推論ノード、スイッチング機器、AI プラットフォーム ソフトウェア、管理および運用ソフトウェアが統合されており、大規模モデル パートナーにワンストップ配信のためのプラグ アンド プレイ導入エクスペリエンスを提供します。すぐに使用できるため、2 時間以内に導入できます。トレーニング/推論ノードとストレージ ノードは両方とも、さまざまなモデル スケールの要件に合わせて独立して水平方向に拡張できます。一方、FusionCube A3000 は高性能コンテナを利用して、複数のモデルのトレーニングと推論タスクが GPU を共有できるようにし、リソース使用率を 40% から 70% 以上に増加させます。 FusionCube A3000 は、Huawei Ascend ワンストップ ソリューションと、オープン コンピューティング、ネットワーキング、AI プラットフォーム ソフトウェアを備えたサードパーティ パートナーのワンストップ ソリューションという 2 つの柔軟なビジネス モデルをサポートします。

ファーウェイのデータストレージ製品ライン担当社長、周岳峰氏は次のように述べています。「大規模モデルの時代では、データがAIインテリジェンスの高さを決定します。データのキャリアとして、データ ストレージは AI 大規模モデルの重要な基礎インフラストラクチャになります。ファーウェイデータストレージは今後も革新を続け、AI大型モデルの時代に向けた多様なソリューションと製品を提供し、パートナーと協力して幅広い業界でAIの強化を推進していきます。」


投稿日時: 2023 年 8 月 1 日