Drivenets, mieux connu pour apporter des réseaux au cloud-natif et axés sur les logiciels aux fournisseurs de services, a récemment publié une série de packages Ethernet pour répondre aux besoins uniques des centres de données d’IA.
Alors que la manie technologique de l’IA se concentrait initialement sur le silicium, les dirigeants informatiques commencent à comprendre que le Le réseau joue un rôle essentiel dans le succès de l’IA. Le rôle du réseau est la raison pour laquelle Nvidia a dépensé près de 7 milliards de dollars pour acquérir Mellanox en 2019. Depuis lors, le PDG du chef du GPU, Jensen Huang, a continuellement réitéré que le réseau est un différenciateur.
Connectivité traditionnelle et IA
Le réseau moyen, cependant, n’a pas les performances nécessaires pour soutenir l’IA. Une option est Infinibandqui offre de grandes performances pour l’IA mais a plusieurs négatifs. Premièrement, Infiniband n’est soutenu que par un seul fournisseur, ce qui en fait une technologie fermée qui crée le verrouillage des fournisseurs. Cela peut être bien pour certaines entreprises, mais la plupart des organisations veulent avoir une technologie plus ouverte qui permet des choix à long terme et un large écosystème. De plus, alors qu’Infiniband existe depuis longtemps, un nombre limité d’ingénieurs ont travaillé avec lui, car la technologie n’a historiquement été utilisée que dans des situations de niche.
Dans une récente étude de recherche ZK, j’ai posé la question: “Quelle technologie de réseautage préférez-vous soutenir les charges de travail de l’IA?” et 59% des répondants ont déclaré Ethernet. Dans une réponse de suivi de la raison pour laquelle, ils ont fait référence à l’omniprésence actuelle de Ethernet, leur familiarité avec elle et leurs préoccupations concernant le verrouillage.
Cela dit, les options Ethernet actuelles ne sont pas idéalement adaptées Rigors de l’IA. Malgré la polyvalence d’Ethernet, il ne garantit pas que chaque paquet atteindra sa destination, et il a trop de latence et des limitations de bande passante pour soutenir l’IA. La formation et l’inférence de l’IA exigent une connectivité sans perte, une latence extrêmement faible et une bande passante élevée pour un transfert de données rapide entre les nœuds de calcul. C’est pourquoi les options Ethernet actuelles et améliorées nécessitent que les DPU soient déployés dans les serveurs, pour décharger les fonctions de mise en réseau et pour paquets de pulvérisation D’une manière qui contourne les goulots d’étranglement du réseau.
Approche des entraînements
Drivenets a une approche différente avec son Ethernet programmé en tissuune architecture qui utilise des connexions Ethernet standard vers le côté client mais implémente un système de tissu planifié basé sur des cellules basé sur le matériel pour assurer des performances prévisibles et sans perte. Cela lui permet de fournir un débit élevé et une faible latence, ce qui le rend idéal pour les grappes d’IA.
La technologie permet aux ingénieurs réseau de connecter une série de commutateurs sur un tissu sans perte, comme ce que Fibrechannel a fait pour le stockage. Historiquement, les centres de données ont été construits sur des commutateurs basés sur le châssis. Les entraînements ont désagrégé le châssis en interrupteurs haut de gamme et en tissu, avec un protocole basé sur les cellules de Broadcom les connectant. Cela permet au tissu de faire évoluer horizontalement, permettant aux entreprises de démarrer petit et de devenir un réseau massif en cas de besoin.
Pour s’assurer que le trafic est réparti à travers le tissu uniformément, les entraînements utilisent une technique appelée “pulvérisation de cellules” pour équilibrer le trafic à travers les différents commutateurs. Il utilise également file d’attente de sortie virtuellequi est une technique tampon où chaque port d’entrée maintient des files d’attente distinctes pour chaque port de sortie, empêchant le blocage de la tête de ligne. Cette isolement du trafic destiné à différentes sorties permet à plusieurs locataires de partager la même infrastructure de réseau physique, sans que leur trafic interfère les uns avec les autres. La congestion sur une file d’attente de sortie n’affecte pas le trafic destiné aux autres sorties.
Un regard sur les avantages
Les réseaux d’IA multi-locataires ont de nombreux avantages, comme les suivants:
Amélioration de la gestion des ressources.
Partage de données et collaboration entre les entreprises et les départements.
Les fournisseurs de services gérés peuvent offrir des services réseau dans un modèle “en tant que service” ou d’abonnement.
L’approche du tissu des entraînements présente plusieurs avantages. Le premier, et peut-être le plus important pour les réseaux d’IA, est une performance garantie. Cette approche apporte les avantages de performance d’Infiniband et les combine avec la facilité de déploiement et de gestion de Ethernet. Cela se fait également indépendamment de GPU, NIC ou DPU, donnant aux clients la liberté de choisir les technologies de la pile. En plus de la facilité de déploiement d’Ethernet, l’approche de planification basée sur les tissus assouplit le processus de réglage fin et accélère considérablement le temps d’installation du cluster d’IA, ce qui entraîne d’énormes économies en temps et en argent.
Le déploiement n’est pas tout à fait plug et joue, mais il est proche. Les ingénieurs réseau peuvent connecter les commutateurs de pilotes, qui fonctionnent sur des boîtes blanches, et le système se configure automatiquement pour former un cluster d’IA. Les équipes peuvent évoluer le réseau en ajoutant des commutateurs à la colonne vertébrale.
Réflexions finales
Je ne m’attends pas à ce que Infiniband disparaisse de si tôt, mais la croissance de l’IA réseautage proviendra d’Ethernet. En fait, la transition est déjà en cours. Les premiers adoptants peuvent résister à la complexité de la gestion de l’infiniband. Mais pour que l’IA s’adapte, le réseau doit passer à Ethernet, car il est beaucoup plus simple de travailler, et les compétences nécessaires pour l’exécuter sont presque omniprésentes. Cependant, tous les Ethernet ne sont pas créés et les clients devraient faire leur diligence raisonnable pour comprendre toutes les options.