La solution DCN hyperconvergée CloudFabric 3.0 de Huawei permet un Ethernet sans perte, libérant 100 % de la puissance de calcul

[Paris, France, April 7, 2022] Aujourd’hui, Zheng Xiaolong, chercheur en chef du réseau de centres de données (DCN) du centre de recherche de Huawei Canada, a prononcé un discours d’ouverture intitulé « L’Ethernet sans perte de paquets permet de libérer 100 % de la puissance de calcul » lors du MPLS, SD & AI Net World Congress. Dans le discours d’ouverture, M. Zheng a expliqué comment la solution DCN hyperconvergée CloudFabric 3.0 de Huawei offre une solution innovante au problème de perte de paquets sur les DCN et construit des Ethernets à faible latence, à haut débit et à grande échelle pour libérer 100 % de la puissance de calcul. Point de vue du chercheur en chef de Huawei pour les réseaux de centres de données L’amélioration efficace de la puissance de calcul est cruciale à l’ère de la puissance de calcul centrée sur les données « Une puissance de calcul insuffisante est le plus grand défi à l’ère de la puissance de calcul centrée sur les données », a déclaré Zheng Xiaolong. “Pour mettre en œuvre le traitement des données en temps réel et la monétisation de la valeur, une puissance de calcul robuste est nécessaire…

[Paris, France, April 7, 2022] Aujourd’hui, Zheng Xiaolong, chercheur en chef du réseau de centres de données (DCN) du centre de recherche de Huawei Canada, a prononcé un discours d’ouverture intitulé « L’Ethernet sans perte de paquets permet de libérer 100 % de la puissance de calcul » lors du MPLS, SD & AI Net World Congress. Dans le discours d’ouverture, M. Zheng a expliqué comment la solution DCN hyperconvergée CloudFabric 3.0 de Huawei offre une solution innovante au problème de perte de paquets sur les DCN et construit des Ethernets à faible latence, à haut débit et à grande échelle pour libérer 100 % de la puissance de calcul.

Point de vue du chercheur en chef de Huawei pour les réseaux de centres de données

L’amélioration efficace de la puissance de calcul est cruciale à l’ère de la puissance de calcul centrée sur les données

« Une puissance de calcul insuffisante est le plus grand défi à l’ère de la puissance de calcul centrée sur les données », a déclaré Zheng Xiaolong. “Pour mettre en œuvre le traitement des données en temps réel et la monétisation de la valeur, une puissance de calcul robuste est nécessaire.”

Aujourd’hui, les mégadonnées ont des utilisations partout, allant du métaverse et de la recherche sur les médicaments alimentée par l’IA, à la recommandation de publicité intelligente basée sur les habitudes des utilisateurs. La clé de ces applications de mégadonnées est une puissance de calcul robuste, mais l’échelle des modèles informatiques d’IA croît de façon exponentielle. Par exemple, Megatron-Turing NLG – le dernier modèle de langage de l’industrie – prend désormais en charge 53 milliards de paramètres. En comparaison, même le modèle le plus complexe en 2017 ne prenait en charge que 61 millions de paramètres. En d’autres termes, la pression informatique a été multipliée par près de 10 000 au cours des cinq dernières années. De toute évidence, trouver un moyen d’améliorer l’efficacité de la puissance de calcul et de libérer 100 % de la puissance de calcul est devenu la priorité absolue à l’ère de la puissance de calcul.

Les DCN deviennent le principal goulot d’étranglement pour améliorer la puissance de calcul des clusters

L’exécution des opérations de calcul à virgule flottante de niveau E requises pour former un modèle d’IA, tel que le modèle de langage GPT3, nécessite un grand nombre de serveurs informatiques pour former un cluster. Cependant, tous les clusters de formation IA ont leur seuil de performance. Une fois le seuil atteint, même si d’autres nœuds de serveur sont ajoutés, les performances ne peuvent pas s’améliorer et peuvent même se détériorer. En effet, les nœuds informatiques collaborent les uns avec les autres dans le cluster et, si une perte de paquets se produit sur le réseau, la surcharge augmentera en raison du temps d’attente prolongé pour la collaboration. Même avec une perte de paquets de 0,1 %, la puissance de calcul sera réduite de moitié, ce qui rend un DCN sans perte vital pour améliorer la puissance de calcul.

Ethernet sans perte basé sur la solution DCN hyperconvergée CloudFabric 3.0 de Huawei, libérant 100 % de la puissance de calcul

Les solutions DCN hyperconvergées CloudFabric 3.0 de Huawei exploitent iLossless – un algorithme intelligent et sans perte unique à Huawei – pour éliminer la perte de paquets qui a martelé les Ethernets pendant plus de 4 décennies. Cette solution offre un débit élevé, une faible latence et aucune perte de paquets, libérant 100 % de la puissance de calcul dans tous les scénarios.

Haut débit: La planification du trafic traditionnel est configurée manuellement et, en tant que telle, ne peut pas s’adapter aux modifications dynamiques du réseau. L’ECN automatique (ACC) de Huawei est une technologie intelligente et sans perte qui prédit l’état de congestion du réseau et un débit de près de 100 % tout en éliminant la perte de paquets sur toute liaison congestionnée. Comme l’a vérifié Tolly Group, un fournisseur mondial de services de test et de validation et de certification tiers, la solution DCN hyperconvergée CloudFabric 3.0 de Huawei peut augmenter les performances IOPS 100 % flash de 93 %. En août 2021, l’article ACC : Automatic ECN Tuning for High-Speed ​​​​Datacenter Networks a exploré les innovations DCN hyperconvergées intelligentes et sans perte de Huawei, et a été accepté par l’événement annuel phare de l’Association for Computing Machinery (ACM) : le Special Groupe d’intérêt sur la communication de données (SIGCOMM) 2021. Cela démontre la haute estime des experts de l’industrie pour les innovations de Huawei, et que ces innovations ont un impact considérable ressenti dans le monde entier.

Faible latence: Dans les scénarios de calcul haute performance (HPC), la latence des applications est le produit du nombre d’étapes de calcul et de la latence de chaque étape. Pour les applications sensibles à la latence, la réduction du nombre d’étapes peut réduire efficacement la latence globale de l’application. Optimisée par l’informatique en réseau et l’informatique sensible à la topologie, la technologie INC (Integrated Network and Computing) de Huawei met en œuvre la collaboration réseau et informatique. Grâce à ces technologies, le réseau participe à l’agrégation et à la synchronisation des informations informatiques, réduisant ainsi le nombre de fois où les informations informatiques sont synchronisées. Pendant ce temps, les tâches informatiques sont affectées au même commutateur TOR, ce qui réduit le nombre de sauts de communication, ce qui réduit à son tour le délai d’application. Prenez MPI_allreduce comme exemple. Par rapport aux réseaux traditionnels qui transfèrent uniquement les données sans participer au calcul, la solution DCN hyperconvergée CloudFabric 3.0 peut réduire considérablement la latence et améliorer l’efficacité du calcul de 27 %.

Grande échelle: L’architecture traditionnelle de réseau fermé à trois couches d’un centre de données prend en charge un maximum de 65 000 nœuds, bien en deçà de ce qui est requis par les centres de données à grande échelle. La solution DCN hyperconvergée CloudFabric 3.0 de Huawei adopte l’architecture de topologie de connexion directe de nouvelle génération et des protocoles innovants de routage adaptatif distribué. Il construit non seulement un réseau informatique sans perte, mais prend également en charge la mise en réseau à grande échelle jusqu’à 270 000 nœuds, soit quatre fois celle de l’industrie. Cela le rend idéal pour les grands et très grands hubs informatiques de niveau E et 10E.

L’absence de perte de paquets et l’évolution continue des performances sont d’une grande importance pour l’ère de la puissance informatique centrée sur les données. Huawei a effectué des tests conjoints à grande échelle avec des clients dans les secteurs de la finance, de la fabrication et du HPC. Les résultats des tests prouvent que la solution DCN hyperconvergée CloudFabric 3.0 de Huawei présente des avantages significatifs en termes de performances dans des scénarios tels que le stockage entièrement flash, le stockage distribué, le HPC et l’informatique IA. À l’avenir, Huawei continuera d’investir dans la recherche technologique intelligente et sans perte pour améliorer encore les capacités du réseau sans perte, libérer pleinement la puissance de calcul et permettre une mise à niveau intelligente des entreprises.

À propos de Huawei

Huawei est l’un des principaux fournisseurs mondiaux d’infrastructures de technologies de l’information et de la communication (TIC) et d’appareils intelligents. Avec des solutions intégrées dans quatre domaines clés – réseaux de télécommunications, informatique, appareils intelligents et services cloud – nous nous engageons à apporter le numérique à chaque personne, foyer et organisation pour un monde entièrement connecté et intelligent. Le portefeuille de bout en bout de produits, de solutions et de services de Huawei est à la fois compétitif et sécurisé. Grâce à une collaboration ouverte avec des partenaires de l’écosystème, nous créons une valeur durable pour nos clients, en travaillant pour autonomiser les gens, enrichir la vie à la maison et inspirer l’innovation dans les organisations de toutes formes et tailles. Chez Huawei, l’innovation se concentre sur les besoins des clients. Nous investissons massivement dans la recherche fondamentale, en nous concentrant sur les percées technologiques qui font avancer le monde. Nous avons plus de 197 000 employés et nous opérons dans plus de 170 pays et régions. Fondée en 1987, Huawei est une société privée détenue à 100% par ses employés. Pour plus d’informations, rendez-vous sur Huawei en ligne sur www.huawei.com ou suivez-nous sur :

http://www.linkedin.com/company/Huawei

http://www.twitter.com/Huawei

http://www.facebook.com/Huawei

http://www.youtube.com/Huawei

Leave a Comment