Axion est basé sur la conception Neoverse V2 d’Arm, une puce orientée centre de données construite sur l’architecture ARMv9. Arm ne fabrique pas de chips ; il crée des conceptions, puis les titulaires de licence prennent ces conceptions et effectuent leurs propres personnalisations en les ajoutant à la configuration de base qu’ils obtiennent d’Arm. Certains fabriquent des téléphones intelligents (Apple, Qualcomm) et d’autres fabriquent des puces de serveur (Ampère).
Google a refusé de commenter les vitesses, les frais et les cœurs, mais il a affirmé que les processeurs Axion fourniraient des instances avec des performances jusqu’à 30 % supérieures à celles des instances Arm à usage général les plus rapides disponibles dans le cloud aujourd’hui, jusqu’à 50 % supérieures. performances et une efficacité énergétique jusqu’à 60 % supérieure à celle des instances x86 comparables de la génération actuelle.
Axion est construit sur Titanium, un système de microcontrôleurs en silicium personnalisés spécialement conçus par Google et de déchargements évolutifs à plusieurs niveaux. Il décharge des opérations telles que la mise en réseau et la sécurité, afin que les processeurs Axion puissent se concentrer sur le calcul de la charge de travail, tout comme le SuperNIC décharge le trafic réseau du processeur.
Les machines virtuelles basées sur les processeurs Axion seront disponibles en avant-première dans les prochains mois, selon Google.
Services logiciels d’IA mis à jour
En février, Google a présenté Gemma, une suite de modèles ouverts utilisant les mêmes recherches et technologies que celles utilisées pour créer le service d’IA générative Gemini de Google. Désormais, les équipes de Google et de Nvidia ont travaillé ensemble pour accélérer les performances de Gemma avec TensorRT-LLM de Nvidia, une bibliothèque open source permettant d’optimiser l’inférence LLM.
Google Cloud a également facilité le déploiement du framework NeMo de Nvidia pour créer des applications d’IA génératives personnalisées sur sa plate-forme via son moteur GKE Kubernetes et Google Cloud HPC Toolkit. Cela permet aux développeurs de relancer le développement de modèles d’IA génératifs, permettant ainsi le déploiement rapide de produits d’IA clé en main.