[Network] InfiniBand Building Blocks

原文はこちら。
https://blogs.oracle.com/networking/entry/infiniband_building_blocks

このエントリを書き下ろしながら、InfiniBandテクノロジーを使っているOracleの最新のEngineered Systemsを参照しています。Exalogic、Exadata、SuperClusterのプラットフォームについて説明していきます。
最小かつ最小限の構成では、我々は、デュアルスタートポロジでInfiniBandスイッチのペアにホストを接続させています。なぜ2つかというと、冗長性を提供するためです。各ホストには1つのデュアルポートIB HCAがあり、これらのポートはQSFPカッパーケーブルを介して独立したIBスイッチに接続します。スイッチには、ホスト間の代替パスを提供するインターリンクもあります。これで、ラック内のハードウェア構成と接続のほとんどは完了です。

下図は基本的な接続ブロック図です。ActiveとPassiveの概念は後ほど説明します。


次はソフトウェアコンポーネントです。各ホストには、必要なIBソフトウェアスタックがオペレーティングシステムに組み込まれています。それぞれのIBスイッチには、接続されたエンドポイントの管理および理解のため、独自のソフトウェアの実装があります。Linuxのコンピューティング環境では、IBソフトウェアはOFED(訳注:OpenFabrics Enterprise Distribution)に基づいています。ここで特筆すべき一つの特別なソフトウェアは、サブネットマネージャ(Subnet Manager)です。このソフトウェアがネットワークで機能していないと非管理のInfiniBandネットワークになってしまい、望むものではありません。 IBネットワークにおけるサブネットマネージャの主目的は、接続されたホスト間の通信経路を有効にし、定期的にネットワークの物理的変化を監視し、それに応じて調整できるようにすることです。この記事のコンテキストでは、この役割はIBスイッチが努めています。いま、ラック内に複数のスイッチがありますが、どれを使いましょう。答えは、1つ以上を使い、一つは冗長性のためにおいておきます。サブネットマネージャの接続インスタンスの間でのメッセージングプロトコルがあり、接続インスタンスは実際にどちらのスイッチがサブネット管理の役目を果たすかをお互いに交渉することができます。これがマスターサブネットマネージャ(Master Subnet Manager)として知られているものです。複数ある場合は、スタンバイサブネットマネージャ(Standby Subnet Manager)として待機します。マスタースイッチに障害が発生した場合、定義済みの条件に従い次のスイッチがサブネットマネージャに昇格します。

今、詳細をお伝えするため、サブネットマネージャは物理的な変更を検知するため定期的にファブリックをチェックし、LIDをエンドポイントに割当て、構成ファイル中で指定したルーティングアルゴリズムに基づいたフォワーディングテーブルを作成し、いくつかの重要な機能を実行します。ポイントを終了するには、蓋を割り当て、設定ファイルで指定されたルーティング·アルゴリズムに基づいて、転送テーブルを作成し、私は延期しますさらにいくつかの重要な機能を実行します(実行する機能については後で説明します)。

この設定により、OSIモデルのL2を使って通信する準備が完了しました。前述の通り、テクノロジーは上位レベルのプロトコル(upper level protocols / ULP)に対して透過的なので、L3のIPアドレスは個々のホストに割り当てられています。これはイーサネットベースのネットワークの場合と同様です。冗長性のため、IBインターフェースのペアをアクティブ-スタンバイモードで接合し、IPv4アドレスを割り当てています。ここで、ホストの観点からL3での高可用性や冗長性が達成されることを覚えておいてください。ホストからの両リンクは、スイッチとInfiniBandネットワークの観点からすると常にアクティブなのです。

ここで理解を助けるための例をお見せします。
以下のスクリーンショットはホストのInfiniBandポートの状態を示しています。両ポートはアクティブで、LIDがアサインされており、レートは40、つまりオートネゴシエートで4X QDRになっています。


次のスクリーンショットでは、IPoIBのL3構成になっています。


bonding状態を見てみましょう。下のスクリーンショットではインターフェースib0がアクティブなのに対し、ib1はスタンバイになっています。それゆえ、L3での冗長性と高可用性がホストから認識されています。


接続されたファブリックのホストもまた独自のIPoIBのアドレスを持つようになります。これでInfiniBandネットワークの基本的なセットアップが終了し、ここからは、さらにカスタマイズして微調整して、上位層のアプリケーションおよびプロトコルのためにこの高速かつ効率的なスイッチング·ファブリックを利用できるようになります。

次のセクションでは、近隣を照会したり、ファブリックの状態をチェックしたり、他のホストとの通信などについてご紹介します。

0 件のコメント:

コメントを投稿