Nvidia lance la plate-forme Ethernet Spectrum-4 avec les yeux sur l’entreprise

Au milieu du flux de nouvelles de GTC22 aujourd’hui, Nvidia a lancé une nouvelle plate-forme de réseau Ethernet – Spectrum-4 – et un nouveau commutateur Ethernet Spectrum-4 de 51,2 térabits alimenté par un transistor ASIC de 100 milliards de dollars, qui, selon Nvidia, “est le plus grand changer ASIC qui n’a jamais été fait. La plate-forme Spectrum-4 (Ethernet) rejoint Quantum-2 (InfiniBand) en tant que deux principales plates-formes réseau de Nvidia. Nvidia a également signalé une traction croissante pour BlueField, son offre DPU.

Pendant son CG22 keynote, Jensen Huang, PDG de Nvidia, a déclaré : « Aujourd’hui, nous introduisons le commutateur Spectrum-4 à 51,2 térabits par seconde. L’ASIC à 100 milliards de transistors dans Spectrum-4 est le commutateur le plus avancé jamais construit. Spectrum-4 introduit une répartition équitable de la bande passante sur tous les ports, un routage adaptatif et un contrôle de la congestion pour le débit global le plus élevé du centre de données. Avec les adaptateurs CX-7 (ConnectX-7) et BlueField-3 et le logiciel d’infrastructure de centre de données DOCA, il s’agit de la première plate-forme réseau de bout en bout à 400 gigabits par seconde au monde. Et Spectrum-4 peut atteindre une précision de synchronisation de quelques nanosecondes par rapport aux nombreuses millisecondes de gigue dans un centre de données typique. C’est une amélioration de cinq à six ordres de grandeur.

L’introduction de la croissance de la plate-forme Ethernet Spectrum met l’accent sur la poussée de Nvidia dans l’entreprise ainsi que sur la migration régulière de Nvidia après l’acquisition de Mellanox loin du nom Mellanox dans la marque de ses produits d’interconnexion. Lors d’un pré-briefing hier, le vice-président de Nvidia pour la mise en réseau, Kevin Deierling, a cité les besoins en gestion de données et en réseau de plusieurs plates-formes Nvidia AI telles que Riva (traitement du langage naturel), Merlin (recommandateur) et Omniverse (jumeaux numériques) comme moteur du lancement de la nouvelle plate-forme basée sur Ethernet.

Les charges de travail traditionnelles, a-t-il déclaré, se caractérisent par un grand nombre d’utilisateurs et de processus de calcul, mais n’ont pas besoin de déplacer autant de données. « Il existe de nombreuses connexions, mais l’échange de petites quantités de données. Nous appelons ces flux de souris et il y a beaucoup de flux de souris. Les mécanismes traditionnels d’équilibrage de la charge du réseau tels que ECMP (routage multi-chemins à coût égal) fonctionnent très bien lorsque vous avez des milliers et des milliers de petits flux de souris.

Les nouvelles charges de travail de calcul accéléré et d’IA modifient ces exigences. La simulation d’un atelier, par exemple, peut nécessiter l’échange d’une énorme base de données entre les nœuds, a déclaré Deierling.

«Ceux-ci sont appelés flux d’éléphants et ils peuvent entrer en collision et provoquer des embouteillages. Nvidia utilise un routage adaptatif basé sur la congestion pour localiser et identifier les flux d’éléphants et s’adapter en conséquence. La bonne chose ici est que nous utilisons des technologies standard de l’industrie », a-t-il déclaré. “Nous l’avons construit pour ROCE (accès direct à la mémoire à distance via Ethernet convergé). Cela nous permet de partager des données très rapidement entre les GPU et le stockage. Nous utilisons des technologies comme Stockage direct GPU, afin que nous puissions récupérer les données directement à partir des nœuds de stockage, contourner le CPU et envoyer les données directement aux GPU. Et nous pouvons même partager des données entre GPU et utiliser le matériel réseau pour déplacer les données.

Le cœur de la plate-forme, a-t-il déclaré, est le nouveau commutateur Ethernet Spectrum-4 qui devrait être disponible au troisième trimestre. Ses spécifications sont impressionnantes. Dieriling a noté que «Spectrum-4 fournit 12,8 téraoctets de MAC sec crypto. Ceci est important pour le calcul zéro confiance dont vous entendez parler et il s’agit de la cryptographie la plus performante de tous les commutateurs. Spectrum-4 peut traiter près de 38 milliards de paquets par seconde, encore une fois la commutation de paquets la plus performante disponible avec 400 ports Gig. Spectrum-4 offre quatre fois le débit de notre commutateur précédent et il le fait à la fois en doublant la bande passante que nous pouvons connecter par voie et en doublant ensuite le nombre de voies », a déclaré Deierling.

On a demandé à Deierling si le commutateur Spectrum-4 utilise 112G SerDes (Serializer/Deserializer) pour atteindre des vitesses de 800 gig. La technologie 112G SerDes est puissante mais s’est également avérée difficile à mettre en œuvre.

“La réponse est oui”, a déclaré Deierling. « Spectrum-4 utilise 100 Go pour atteindre 800 ports Go. Ainsi, il raye huit voies par 100 concerts pour atteindre 800 concerts, ou quatre voies pour atteindre 400 concerts. C’est la technologie critique dont les gens disent “hé, si ça marche, nous allons passer très rapidement à 400 giga et 800 giga”. Et par le travail, il doit être fiable, rentable et économe en énergie. Nous sommes très confiants car aujourd’hui, avec le Connect X-7, nous expédions déjà 100 Go, nous avons donc 400 Go ou 4 x 100 Go sur notre ConnectX-7 qui utilise la même technologie éprouvée 112G SerDes que nous incorporons dans le Spectre-4.

InfiniBand était visiblement absent du pré-briefing et du discours d’ouverture du GTC, car toute l’attention semblait concentrée sur la technologie d’entreprise et les cas d’utilisation. Lors du pré-briefing médias/analystes, Deierling a fait un bon travail en distinguant les gammes de produits réseau Nvidia InfiniBand et Ethernet. La plate-forme Quantum-2, lancée au SC l’année dernière, est la gamme InfiniBand. (Voir HPCwire couverture du lancement de Quantum.)

“Je vais commencer par Quantum-2”. [It] s’intègre dans l’espace réseau Nvidia pour notre informatique scale-out HPC et AI. InfiniBand est la technologie qui a vraiment les performances les plus élevées, la latence la plus faible et offre des choses comme l’informatique en réseau, afin que nous puissions faire des réductions de données dans le réseau lui-même. Ainsi, pour les charges de travail AI et HPC, Quantum-2 est la plate-forme que nous utilisons. La plate-forme Ethernet est davantage destinée aux cas d’utilisation d’entreprise où les utilisateurs disposent d’un environnement familier qu’ils souhaitent continuer à utiliser avec Ethernet. Évidemment, nous prenons en charge, vous savez, une bande passante de 51 térabits par seconde. Alors [it’s] pas en reste, mais il n’a pas toutes les capacités d’InfiniBand, telles que l’informatique en réseau », a déclaré Deierling.

Invité à comparer InfiniBand avec ROCE (accès direct à distance à la mémoire sur Ethernet convergé), il a déclaré: «Ils offrent tous les deux une connectivité de 400 gigaoctets aujourd’hui. Nous pouvons exécuter RDMA, qui est en fait un transfert de données sans frais généraux. Dans les deux cas, avec la technologie InfiniBand ou RoCE, nous pouvons faire du stockage GPUDirect. Nous avons des partenaires de stockage afin que vous puissiez aller chercher les données et les déplacer directement dans la mémoire du GPU sans que le CPU soit impliqué et sans avoir à les transférer sur le bus PCIe, le bus mémoire et le CPU. Ils sont donc très, très similaires. La principale différence, encore une fois, est cette capacité à faire de l’informatique en réseau, ce que nous appelons notre TRANCHANT La technologie [that] InfiniBand a et RoCE n’a pas.

Il est clair que Nvidia reconnaît la taille du marché Ethernet. Deierling a déclaré : « InfiniBand occupe une place de choix sur les marchés de l’IA et du HPC. C’est un beau grand marché en croissance. Mais évidemment, Ethernet est un marché encore plus large avec des capteurs, des cas d’utilisation d’entreprise, des bases de données et, dans certains cas d’utilisation en périphérie. Si vous regardez la 5G et l’antenne, souvent dans un environnement de jumeau numérique, il y aura une tonne de caméras et d’autres capteurs et robots auxquels vous souhaitez vous connecter via des connexions Ethernet filaires ou via la 5G. Il est plus probable que vous voyiez Ethernet être utilisé [there] car c’est là que vous pouvez connecter tous les différents capteurs.

Il n’y avait pas beaucoup de nouvelles de BlueField-3. Annoncé l’année dernière lors du Spring GTC21, le silicium BlueField-3 est attendu dans le courant de l’année et cela semble en bonne voie. Deierling a déclaré que BlueField-3 apparaîtrait dans Nvidia cartes convergées Plus tard cette année; actuellement, ces cartes ont des DPU BlueField-2. Nvidia a annoncé le lancement de DOCA 1.3 – le SDK pour ses DPU. Deierling a déclaré que DOCA 1.3 a été mis à jour pour tirer parti de l’ensemble de la plate-forme Ethernet Spectrum-4.

Deierling a cité de nouveaux partenariats cherchant à tirer parti des DPU Nvidia et il faudra surveiller la large adoption des DPU Nvidia et des puces / systèmes similaires prenant en charge l’infrastructure.

« Nous annonçons un projet Bêta de Monterey sur BlueField avec Launchpad. Il s’agit du projet VMware Monterey où nous accélérons la mise en réseau et la sécurité sur le BlueField et exécutons réellement le Pare-feu NSX sur notre DPU BlueField. Bien [also announce] OpenShift, avec Red Hat, est disponible sur le DPU BlueField. Vous verrez d’autres annonces de partenaires comme Pluribus, qui est une société de mise en réseau qui unifie le commutateur et la mise en réseau basée sur l’hôte sur BlueField. VAST est une autre entreprise ; c’est annonçant une plateforme de stockage basée sur BlueField.

Il semble y avoir une traction croissante autour de l’utilisation de processeurs prenant en charge l’infrastructure pour décharger divers processus de gestion interne qui s’exécutent actuellement sur des processeurs hôtes.

Lien vers le communiqué de presse Nvidia : https://www.hpcwire.com/off-the-wire/nvidia-announces-spectrum-high-performance-data-center-networking-infrastructure-platform/

Leave a Comment