ストレージがモデルトレーニングの主要なボトルネックにならないようにする

テクノロジー企業は GPU を争奪戦しているか、取得に向かっていると言われています。4 月、Tesla の CEO、イーロン・マスクは 10,000 個の GPU を購入し、今後も NVIDIA から大量の GPU を購入すると述べました。企業側でも、IT 担当者は、投資収益率を最大化するために GPU が継続的に利用されるように努めています。ただし、一部の企業では、GPU の数が増えると、GPU のアイドル状態がより深刻になる場合があります。

ハイ パフォーマンス コンピューティング (HPC) について歴史が私たちに何かを教えているとすれば、それは、コンピューティングに重点を置きすぎてストレージとネットワークを犠牲にすべきではないということです。ストレージがデータをコンピューティング ユニットに効率的に転送できない場合、たとえ世界で最も多くの GPU を搭載していても、最適な効率を達成することはできません。

Small World Big Data のアナリストである Mike Matchett 氏によると、より小さなモデルはメモリ (RAM) 内で実行できるため、計算により集中できるとのことです。ただし、数十億のノードを持つ ChatGPT のような大規模なモデルは、コストが高いためメモリに保存できません。

「何十億ものノードをメモリに収めることはできないため、ストレージはさらに重要になります」とマチェット氏は言います。残念ながら、データ ストレージは計画プロセス中に見落とされることがよくあります。

一般に、ユースケースに関係なく、モデルのトレーニング プロセスには 4 つの共通点があります。

1. モデルのトレーニング
2. 推論の適用
3. データストレージ
4. 高速コンピューティング

モデルを作成およびデプロイする場合、ほとんどの要件では、モデルのトレーニングを開始するための迅速な概念実証 (POC) またはテスト環境が優先され、データ ストレージは最優先に考慮されていません。

ただし、課題は、トレーニングや推論の展開が数か月、場合によっては数年も続く可能性があるという事実にあります。多くの企業はこの時期にモデルのサイズを急速にスケールアップしており、増大するモデルとデータセットに対応するためにインフラストラクチャを拡張する必要があります。

何百万もの ML トレーニング ワークロードに関する Google の調査では、トレーニング時間の平均 30% が入力データ パイプラインに費やされていることが明らかになりました。過去の研究はトレーニングを高速化するために GPU を最適化することに焦点を当ててきましたが、データ パイプラインのさまざまな部分の最適化には依然として多くの課題が残っています。かなりの計算能力がある場合、実際のボトルネックは、データを計算にどれだけ早く入力して結果を得ることができるかということになります。

具体的には、データのストレージと管理における課題には、データの増加に備えた計画が必要です。これにより、特に要求が高いディープ ラーニングやニューラル ネットワークなどのより高度なユースケースに挑戦する場合、進歩に応じてデータの価値を継続的に抽出できるようになります。容量、パフォーマンス、拡張性の観点からストレージを検討します。

特に:

スケーラビリティ
機械学習では膨大な量のデータを扱う必要があり、データ量が増えるとモデルの精度も向上します。これは、企業が毎日より多くのデータを収集し、保存する必要があることを意味します。ストレージが拡張できない場合、データ集約型のワークロードによってボトルネックが発生し、パフォーマンスが制限され、GPU のアイドル時間が増加し、コストが高くなります。

柔軟性
さまざまなシステムのニーズを満たすには、単一タイプの環境に限定されるのではなく、複数のプロトコル (NFS、SMB、HTTP、FTP、HDFS、S3 など) を柔軟にサポートする必要があります。

レイテンシー
データの読み取りと再読み込みが複数回行われるため、I/O レイテンシーはモデルの構築と使用にとって重要です。I/O レイテンシーを短縮すると、モデルのトレーニング時間を数日または数か月短縮できます。モデル開発の迅速化は、ビジネス上の利点の増大に直接つながります。

スループット
ストレージ システムのスループットは、モデルを効率的にトレーニングするために非常に重要です。トレーニング プロセスには、通常 1 時間あたりテラバイト単位の大量のデータが含まれます。

並列アクセス
高スループットを達成するために、トレーニング モデルはアクティビティを複数の並列タスクに分割します。これは多くの場合、機械学習アルゴリズムが複数のプロセス (場合によっては複数の物理サーバー上) から同じファイルに同時にアクセスすることを意味します。ストレージ システムは、パフォーマンスを損なうことなく同時要求を処理する必要があります。

Dell PowerScale は、低遅延、高スループット、大規模並列 I/O における優れた機能を備えており、GPU アクセラレーション コンピューティングを補完する理想的なストレージです。PowerScale は、マルチテラバイトのデータセットをトレーニングおよびテストする分析モデルに必要な時間を効果的に短縮します。PowerScale オールフラッシュ ストレージでは、帯域幅が 18 倍に増加し、I/O ボトルネックが解消されます。また、既存の Isilon クラスターに追加して、大量の非構造化データを高速化してその価値を引き出すことができます。

さらに、PowerScale のマルチプロトコル アクセス機能は、ワークロードの実行に無制限の柔軟性を提供し、あるプロトコルを使用してデータを保存し、別のプロトコルを使用してアクセスできるようにします。特に、PowerScale プラットフォームの強力な機能、柔軟性、拡張性、エンタープライズ グレードの機能は、次の課題の解決に役立ちます。

- イノベーションを最大 2.7 倍加速し、モデルのトレーニング サイクルを短縮します。

- エンタープライズ グレードの機能、高いパフォーマンス、同時実行性、およびスケーラビリティを活用することで、I/O ボトルネックを排除し、モデルのトレーニングと検証の高速化、モデルの精度の向上、データ サイエンスの生産性の向上、コンピューティング投資収益率の最大化を実現します。単一クラスターで最大 119 PB の有効ストレージ容量を活用することで、より深く高解像度のデータセットでモデルの精度を向上させます。

- 小規模から始めてコンピューティングとストレージを個別にスケーリングすることで大規模な展開を実現し、堅牢なデータ保護とセキュリティのオプションを提供します。

- インプレース分析と事前検証済みのソリューションにより、データ サイエンスの生産性を向上させ、より迅速かつ低リスクの導入を実現します。

- NVIDIA GPU アクセラレーションや NVIDIA DGX システムを使用したリファレンス アーキテクチャなど、最高のテクノロジーに基づいた実証済みの設計を活用します。PowerScale の高いパフォーマンスと同時実行性は、データの取得と準備からモデルのトレーニングと推論に至るまで、機械学習のあらゆる段階でストレージのパフォーマンス要件を満たします。OneFS オペレーティング システムと併用すると、すべてのノードが同じ OneFS 主導のクラスター内でシームレスに動作し、パフォーマンス管理、データ管理、セキュリティ、データ保護などのエンタープライズ レベルの機能を備え、ビジネスのモデル トレーニングと検証をより迅速に完了できるようになります。


投稿日時: 2023 年 7 月 3 日