La démo OpenAI de GPT-40 a innové pour les applications d’IA. Dans une section mémorable, deux robots GPT-4o ont eu une conversation et ont même chanté ensemble. Cet affichage était incroyable, à la fois parce qu’il était en direct et que la tolérance de latence pour que cela fonctionne sans pauses ou interruptions gênantes est stupéfiante. Bien entendu, OpenAI et tous les autres grands fournisseurs d’IA ont construit des centres de données centrés sur l’IA. Cependant, le secret d’une réponse ultra-rapide des applications ne réside pas dans les GPU phares. Il s’agit plutôt d’un nouveau venu dans le quartier, le DPU (unité de traitement numérique), joue un rôle essentiel en tant que tueur de latence.
Alors que les charges de travail d’IA repoussent les limites de la fourniture d’applications et de l’infrastructure réseau pour les géants du cloud et leurs clients, les DPU sont sur le point de bouleverser la pile réseau traditionnelle. Bientôt, ils seront aussi omniprésents dans les salles de serveurs que les CPU et les GPU.
Ce changement promet d’accélérer toutes les applications, de les rendre plus sécurisées et plus cohérentes. En fin de compte, le DPU se propagera aux appareils grand public où le besoin de vitesse est peut-être le plus grand. Le résultat ? La seconde moitié des années 2020 verra les DPU révolutionner les performances et la livraison des applications.
Les DPU sont des processeurs spécialisés conçus pour décharger et accélérer les tâches centrées sur les données, libérant ainsi les processeurs et les GPU pour qu’ils puissent se concentrer sur leurs principales forces. Les DPU disposent généralement de leurs propres processeurs ainsi que d’une connectivité réseau à haut débit, d’un traitement de paquets à haut débit, d’un traitement multicœur, de contrôleurs de mémoire et d’autres composants d’accélération. Les DPU ont commencé à pénétrer dans les centres de données au début des années 2020, lorsque AMD, Intel et NVIDIA ont tous annoncé l’ajout de DPU aux puces des serveurs pour accélérer les vitesses de traitement et augmenter la puissance.
Les DPU sont similaires aux matrices de portes programmables sur site (FPGA) et Cartes réseau intelligentes (cartes d’interface réseau). Une différence clé est que les DPU disposent de leur propre puissance de calcul et peuvent être adaptés à une grande variété de cas d’utilisation. En revanche, les FPGA ont tendance à être moins puissants et les SmartNIC se concentrent sur le chiffrement et la sécurité.
De nombreuses entreprises déploient aujourd’hui des DPU dans le cadre de leurs offres de produits. HPE Aruba utilise des DPU pour l’accélération du réseau et Dell utilise des DPU pour améliorer les performances de ses serveurs. Il existe même un DPU défini par logiciel conçu pour les appareils de périphérie et les environnements impitoyables.
L’émergence de ChatGPT et les améliorations de l’IA ont déclenché une course aux armements pour former et créer des modèles, des services et des applications d’apprentissage automatique. Cela a rendu les DPU encore plus importants, car ils peuvent alléger les coûts et réduire la quantité de puissance GPU et le temps requis pour exécuter des tâches centrées sur l’IA. Le prix des GPU restant exceptionnellement élevé, la formation des modèles d’IA et l’exécution des inférences nécessaires pour répondre aux requêtes des applications d’IA restent d’un coût prohibitif.
De plus en plus, les DPU assument des tâches telles que le prétraitement des données, la compression des modèles et le déplacement des données et les exécutent parallèlement aux processus GPU. Par exemple, un DPU peut gérer les opérations complexes de décodage et de redimensionnement d’images requises pour les modèles de vision par ordinateur, en enregistrant les cycles sur le GPU et en augmentant la vitesse de formation des modèles. Les DPU réduisent également la consommation d’énergie des charges de travail d’IA, un sujet brûlant pour les opérateurs de centres de données confrontés à une crise énergétique de l’IA.
La capacité des DPU à déplacer efficacement des ensembles de données d’IA massifs sur le réseau constitue un avantage essentiel pour les applications d’IA en temps réel qui nécessitent un traitement rapide de grandes quantités de données. Les DPU peuvent améliorer la sécurité des modèles et des données d’IA en fournissant une isolation et un chiffrement au niveau matériel et en garantissant la confidentialité des données. Quant aux processeurs de serveur fonctionnant dans le même système ou aux côtés d’un DPU, ces nouveaux processeurs permettent aux bêtes de somme traditionnelles de se concentrer sur des tâches de calcul séquentielles à forte logique, mieux adaptées à leurs architectures.
Bien qu’utiles dans les centres de données, les DPU sont déployés sur des appareils périphériques tels que des stations de base pour les réseaux de téléphonie mobile 5G. Ce n’est qu’une question de temps avant que les DPU commencent à apparaître sur les ordinateurs portables et les smartphones, car ces appareils intègrent de plus en plus d’applications d’IA gourmandes en mémoire et en processeur, telles que demander à un modèle d’IA de traiter des flux vidéo en temps réel lorsque vous essayez de réparer une fuite. sous l’évier.
Mais le véritable cas d’utilisation des DPU par les consommateurs pourrait être celui des applications véritablement en temps réel. L’acheminement de requêtes compliquées vers un service d’IA dans le cloud fourni via une API peut souvent prendre plusieurs secondes et sembler lent. Dans un futur doté de voitures autonomes, de systèmes de livraison par drones et de robots chirurgicaux autonomes, où les décisions embarquées sont prises en quelques millisecondes, ce décalage ne semblera pas seulement trop lent, il le sera aussi avec des conséquences potentiellement graves. La pression pour une livraison d’applications de plus en plus rapide ne fera qu’augmenter, ce qui augmentera la pression pour déployer les DPU dans davantage d’endroits.
Dans un avenir où les DPU seront véritablement partout, chaque appareil, de la périphérie au cœur, sera en mesure d’accélérer les tâches liées aux données. Cela pourrait réduire considérablement les latences tout au long du processus de livraison des applications. Cela sera particulièrement critique pour les applications « en temps réel » qui s’appuient sur des systèmes d’IA traitant des flux d’informations ou d’images en direct. Cette pression pour des applications plus rapides est omniprésente. Dans la démonstration de GPT4o, le système correspondait sans effort avec un humain. OpenAI a accès à des ressources de calcul massives. Quoi qu’il en soit, les utilisateurs du monde entier s’attendront à ce que toutes les applications s’exécutent plus rapidement. Heureusement, les DPU pourraient être la clé pour répondre au nouveau besoin de vitesse des applications.
Articles Liés: