Voici ce qu’AWS a révélé sur sa stratégie d’IA générative lors de re:Invent 2023

Ecrit par | Intelligence artificielle Big Data

Lors de la conférence annuelle re:Invent d’AWS cette semaine, le PDG Adam Selipsky et d’autres hauts dirigeants ont annoncé de nouveaux services et mises à jour pour susciter l’intérêt croissant des entreprises pour les systèmes d’IA générative et affronter des concurrents tels que Microsoft, Oracle, Google et IBM.

AWS, le plus grand fournisseur de services cloud en termes de part de marché, cherche à capitaliser sur l’intérêt croissant pour l’IA générative. Les entreprises devraient investir 16 milliards de dollars à l’échelle mondiale dans l’IA générative et les technologies associées en 2023, selon un rapport du cabinet d’études de marché IDC.

Ces dépenses, qui comprennent les logiciels d’IA générative ainsi que le matériel d’infrastructure et les services informatiques et commerciaux associés, devraient atteindre 143 milliards de dollars en 2027, avec un taux de croissance annuel composé (TCAC) de 73,3 %.

Cette croissance exponentielle, selon IDC, est près de 13 fois supérieure au TCAC des dépenses informatiques mondiales sur la même période.

Comme la plupart de ses concurrents, en particulier Oracle, Selipsky a révélé que la stratégie générative d’AWS est divisée en trois niveaux : le premier, ou couche d’infrastructure, pour la formation ou le développement de grands modèles de langage (LLM) ; une couche intermédiaire, composée des grands modèles de langage de base nécessaires à la création d’applications ; et une troisième couche, qui comprend les applications qui utilisent les deux autres couches.

AWS renforce son infrastructure pour l’IA générative

Le fournisseur de services cloud, qui a ajouté des capacités d’infrastructure et des puces depuis l’année dernière pour prendre en charge le calcul haute performance avec une efficacité énergétique améliorée, a annoncé cette semaine les dernières itérations de ses puces Graviton et Trainium.

Le processeur Graviton4, selon AWS, offre des performances de calcul jusqu’à 30 % supérieures, 50 % de cœurs en plus et 75 % de bande passante mémoire en plus que la génération actuelle de processeurs Graviton3.

Trainium2, quant à lui, est conçu pour offrir un entraînement jusqu’à quatre fois plus rapide que les puces Trainium de première génération.

Ces puces pourront être déployées dans des UltraClusters EC2 pouvant contenir jusqu’à 100 000 puces, ce qui permettra de former des modèles de base (FM) et des LLM en une fraction du temps qu’il a fallu jusqu’à présent, tout en améliorant l’efficacité énergétique jusqu’à deux fois plus. fois plus que la génération précédente, a indiqué la société.

Les rivaux Microsoft, Oracle, Google et IBM fabriquent tous leurs propres puces pour le calcul haute performance, y compris les charges de travail d’IA générative.

Alors que Microsoft a récemment publié ses processeurs Maia AI Accelerator et Azure Cobalt pour les charges de travail de formation de modèles, Oracle s’est associé à Ampere pour produire ses propres puces, telles que l’Oracle Ampere A1. Auparavant, Oracle utilisait des puces Graviton pour son infrastructure d’IA. La branche cloud computing de Google, Google Cloud, fabrique ses propres puces d’IA sous la forme d’unités de traitement tensoriel (TPU), et leur dernière puce est la TPUv5e, qui peut être combinée à l’aide de la technologie Multislice. IBM, via sa division de recherche, travaille également sur une puce, baptisée Northpole, capable de prendre en charge efficacement les charges de travail génératives.

Chez re:Invent, AWS a également étendu son partenariat avec Nvidia, notamment en prenant en charge le DGX Cloud, un nouveau projet GPU nommé Ceiba et de nouvelles instances pour prendre en charge les charges de travail d’IA générative.

AWS a déclaré qu’il hébergerait le cluster de GPU DGX Cloud de Nvidia, qui peut accélérer la formation de l’IA générative et des LLM pouvant atteindre au-delà de 1 000 milliards de paramètres. OpenAI a également utilisé le DGX Cloud pour former le LLM qui sous-tend ChatGPT.

Plus tôt en février, Nvidia avait annoncé qu’elle rendrait le DGX Cloud disponible via Oracle Cloud, Microsoft Azure, Google Cloud Platform et d’autres fournisseurs de cloud. En mars, Oracle a annoncé le support du DGX Cloud, suivi de près par Microsoft.

Les responsables de re:Invent ont également annoncé que de nouvelles instances Amazon EC2 G6e dotées de GPU Nvidia L40S et des instances G6 alimentées par des GPU L4 sont en préparation.

Les GPU L4 sont réduits par rapport au Hopper H100 mais offrent une efficacité énergétique bien supérieure. Ces nouvelles instances s’adressent aux startups, aux entreprises et aux chercheurs souhaitant expérimenter l’IA.

Nvidia a également partagé son intention d’intégrer son microservice NeMo Retriever dans AWS pour aider les utilisateurs dans le développement d’outils d’IA générative tels que les chatbots. NeMo Retriever est un microservice d’IA génératif qui permet aux entreprises de connecter des LLM personnalisés aux données d’entreprise, afin que l’entreprise puisse générer des réponses d’IA appropriées basées sur leurs propres données.

En outre, AWS a déclaré qu’il serait le premier fournisseur de cloud à intégrer les superpuces GH200 Grace Hopper de Nvidia dans le cloud.

La plate-forme multi-nœuds Nvidia GH200 NVL32 connecte 32 superpuces Grace Hopper via les interconnexions NVLink et NVSwitch de Nvidia. La plateforme sera disponible sur les instances Amazon Elastic Compute Cloud (EC2) connectées via la virtualisation réseau d’Amazon (AWS Nitro System) et le clustering hyperscale (Amazon EC2 UltraClusters).

Nouveaux modèles de base pour offrir plus d’options pour la création d’applications

Afin de proposer davantage de modèles de base et de faciliter la création d’applications, AWS a dévoilé des mises à jour des modèles de base existants au sein de son service de création d’applications d’IA générative, Amazon Bedrock.

Les modèles mis à jour ajoutés à Bedrock incluent Claude 2.1 et Meta Llama 2 70B d’Anthropic, tous deux rendus disponibles pour tous. Amazon a également ajouté ses modèles de fondation propriétaires Titan Text Lite et Titan Text Express à Bedrock.

De plus, le fournisseur de services cloud a ajouté un modèle en avant-première, Amazon Titan Image Generator, au service de création d’applications IA.

Les modèles de base actuellement disponibles dans Bedrock incluent des modèles de langage étendus (LLM) des écuries d’AI21 Labs, Cohere Command, Meta, Anthropic et Stability AI.

Les rivaux Microsoft, Oracle, Google et IBM proposent également divers modèles de base, notamment des modèles propriétaires et open source. Alors que Microsoft propose Llama 2 de Meta ainsi que les modèles GPT d’OpenAI, Google propose des modèles propriétaires tels que PaLM 2, Codey, Imagen et Chirp. Oracle, quant à lui, propose des modèles de Cohere.

AWS a également publié une nouvelle fonctionnalité dans Bedrock, baptisée Model Evaluation, qui permet aux entreprises d’évaluer, de comparer et de sélectionner le meilleur modèle fondamental pour leur cas d’utilisation et leurs besoins commerciaux.

Bien qu’il ne soit pas entièrement similaire, Model Evaluation peut être comparé au Model Garden de Google Vertex AI, qui est un référentiel de modèles de base de Google et de ses partenaires. Le service OpenAI de Microsoft Azure offre également la possibilité de sélectionner de grands modèles de langage. Les LLM peuvent également être trouvés sur Azure Marketplace.

Amazon Bedrock et SageMaker bénéficient de nouvelles fonctionnalités pour faciliter la création d’applications

Amazon Bedrock et SageMaker ont été mis à jour par AWS non seulement pour aider à former des modèles, mais également pour accélérer le développement d’applications.

Ces mises à jour incluent des fonctionnalités telles que la génération augmentée de récupération (RAG), des capacités permettant d’affiner les LLM et la possibilité de pré-entraîner les modèles Titan Text Lite et Titan Text Express à partir de Bedrock. AWS a également introduit SageMaker HyperPod et SageMaker Inference, qui aident respectivement à faire évoluer les LLM et à réduire le coût du déploiement de l’IA.

Vertex AI de Google, Watsonx.ai d’IBM, Azure OpenAI de Microsoft et certaines fonctionnalités du service d’IA générative d’Oracle offrent également des fonctionnalités similaires à Amazon Bedrock, permettant notamment aux entreprises d’affiner les modèles et la capacité RAG.

De plus, Generative AI Studio de Google, qui est une suite low-code pour le réglage, le déploiement et la surveillance des modèles de base, peut être comparé à SageMaker Canvas d’AWS, une autre plateforme low-code pour les analystes commerciaux, qui a été mise à jour cette semaine pour aider à la génération de modèles.

Chacun des fournisseurs de services cloud, y compris AWS, dispose également de bibliothèques de logiciels et de services tels que Guardrails pour Amazon Bedrock, pour permettre aux entreprises de se conformer aux meilleures pratiques en matière de formation de données et de modèles.

Amazon Q, la réponse d’AWS au Copilot piloté par GPT de Microsoft

Mardi, Selipsky a présenté la star de la conférence re:Invent 2023 du géant du cloud : Amazon Q, la réponse de l’entreprise à l’assistant d’IA générative Copilot de Microsoft piloté par GPT.

L’annonce de Q par Selipsky n’est pas sans rappeler le discours d’ouverture du PDG de Microsoft, Satya Nadella, à Ignite and Build, où il a annoncé plusieurs intégrations et versions de Copilot dans une large gamme de produits propriétaires, notamment Office 365 et Dynamics 365.

Amazon Q peut être utilisé par les entreprises pour diverses fonctions, notamment le développement d’applications., transformer le code, générer de la business intelligence, agir comme un assistant d’IA génératif pour les applications métier et aider les agents du service client via l’offre Amazon Connect.

Les rivaux ne sont pas loin derrière. En août, Google a également ajouté son assistant génératif basé sur l’IA, Duet AI, à la plupart de ses services cloud, notamment l’analyse de données, les bases de données et la gestion des infrastructures et des applications.

De même, le service d’IA générative géré d’Oracle permet également aux entreprises d’intégrer des interfaces d’IA générative basées sur LLM dans leurs applications via une API, a indiqué la société, ajoutant qu’elle apporterait son propre assistant d’IA générative à ses services cloud et NetSuite.

D’autres mises à jour liées à l’IA générative chez re:Invent incluent la prise en charge mise à jour des bases de données vectorielles pour Amazon Bedrock. Ces bases de données incluent Amazon Aurora et MongoDB. Les autres bases de données prises en charge incluent Pinecone, Redis Enterprise Cloud et Vector Engine pour Amazon OpenSearch Serverless.

Last modified: 16 janvier 2024