Alors que les entreprises se préparent à la prochaine phase de l’IA générative, AWS a publié cette semaine des mises à jour de ses services cloud, contredisant les affirmations de certains segments du marché selon lesquelles les modèles auto-hébergés sont la voie de l’avenir.
Les nouvelles fonctionnalités du service d’hébergement de modèles Amazon Bedrock et de l’assistant Amazon Q AI répondent à certaines préoccupations citées par les entreprises cherchant à déplacer les charges de travail GenAI telles que l’inférence de modèles en interne, à savoir les coûts d’infrastructure et les problèmes de qualité des données. Des fournisseurs tels que Red Hat, VMware et d’autres au sein de la Cloud Native Computing Foundation ont misé sur cette tendance pour privilégier les produits cloud privés et hybrides, mais cette semaine, AWS a riposté sur cette notion.
Parmi les nouvelles fonctionnalités déployées lors de la conférence annuelle re:Invent du fournisseur de cloud figurait Amazon Bedrock Model Distillation, qui utilise un modèle de base en grand langage (LLM) pour former un modèle plus petit, plus rapide et plus rentable.
Le PDG d’AWS, Matt Garman, a souligné l’aspect rentabilité de la mise à jour lors d’une présentation liminaire sur la nouvelle fonctionnalité. Les modèles distillés peuvent fonctionner 500 % plus rapidement et 75 % moins cher que les LLM, a-t-il déclaré.
“Cette différence de coût a en fait le potentiel d’inverser complètement le retour sur investissement, lorsque vous vous demandez si une application d’IA générative fonctionne pour vous ou non”, a déclaré Garman. “Cela change le fait d’être trop cher pour… le déployer en production et de le retourner pour qu’il soit vraiment précieux pour vous.”
Torsten VolkAnalyste, Groupe de stratégie d’entreprise
En tant que service géré, Amazon Bedrock élimine le travail et l’expertise en science des données nécessaires aux utilisateurs pour effectuer eux-mêmes la distillation des modèles sur les plates-formes internes, a déclaré Garman.
La tarification du cloud basée sur la consommation pourrait encore être une option plus coûteuse pour certaines entreprises, mais la distillation du modèle contredit au moins efficacement les affirmations des concurrents selon lesquelles l’IA auto-hébergée est la seule approche rentable, a déclaré Torsten Volk, analyste chez Informa TechTarget Enterprise Strategy. Groupe.
“L’argument du coût en faveur d’une économie allant jusqu’à 75 % est solide, car les partisans d’une infrastructure auto-hébergée aiment comparer le coût de Bedrock avec celui de GPU alloués de manière plus flexible sur les systèmes appartenant aux clients”, a déclaré Volk. “La distillation modèle élimine une partie de cet argument.”
Red Hat a fait des déclarations similaires en matière de rentabilité à propos de ses modèles quantifiés utilisés dans RHEL AI et InstructLab, mais la distillation du modèle s’attaque aux coûts au niveau de la formation plutôt qu’au niveau du réglage fin, a déclaré Andy Thurai, analyste chez Constellation Research.
“InstructLab est meilleur pour le réglage fin”, a-t-il déclaré. “La distillation d’Amazon est meilleure pour former un modèle étudiant avec des données d’entreprise.”
Garde-corps et protections
D’autres préoccupations fréquemment citées par les entreprises qui adoptent GenAI concernent la qualité et la sécurité des résultats, ainsi que le contrôle et la gouvernance des sources de données. Les fonctionnalités mises à jour d’Amazon Bedrock présentées en avant-première cette semaine visaient également à résoudre ces problèmes.
Par exemple, les vérifications de raisonnement automatisé, prévisualisées pour le service de stratégie Amazon Bedrock Guardrails, évaluent mathématiquement l’exactitude factuelle des réponses LLM. Le service de génération augmentée de récupération des bases de connaissances Amazon Bedrock a ajouté une fonctionnalité en version préliminaire qui utilise les LLM pour évaluer les résultats des applications RAG. Amazon Bedrock Model Evaluation a ajouté une fonctionnalité d’aperçu appelée LLM-as-a-judge qui utilise un modèle pour évaluer automatiquement les réponses d’un autre selon des critères tels que l’utilité, la nocivité et l’exactitude.
Certains analystes du secteur ont déjà appelé à la prudence dans l’utilisation des LLM pour juger du résultat des LLM, et des concurrents spécialisés ont remis en question les méthodes d’AWS utilisant le LLM comme juge.
“[It’s] C’est certainement un pas dans la bonne direction, mais la question demeure : comment savons-nous que le LLM en question est le bon en premier lieu ?”, a déclaré Victor Botev, CTO et co-fondateur d’Iris.ai, dans une déclaration envoyée par courrier électronique à Informa. TechTarget Editorial via un porte-parole cette semaine, Iris.ai commercialise ses propres services d’IA basés sur des API pour les développeurs, y compris RAG en tant que service.
“Bien qu’utiles pour beaucoup, des indicateurs tels que” style professionnel “et” serviabilité “sont encore des domaines très subjectifs qui peuvent être sujets à interprétation”, a écrit Botev, dont le profil LinkedIn répertorie une expérience antérieure en tant qu’ingénieur de recherche universitaire spécialisé dans les réseaux neuronaux. “Si nous voulons mieux comprendre la précision du modèle, nous devons incorporer des mesures de précision plus sophistiquées qui prennent en compte la compréhension contextuelle du modèle du domaine concret et du cas d’utilisation.”
Utiliser des modèles de la même famille LLM pour évaluer les résultats – comme l’a fait le blog AWS avec un exemple utilisant Claude 3.5 Sonnet d’Anthropic pour évaluer les résultats de Claude 3 Haiku – peut être risqué, selon Thurai. Mais il est encore tôt pour Bedrock Guardrails et les services similaires, a-t-il ajouté, et il s’attend à ce qu’ils deviennent plus efficaces avec le temps.
“La plupart des systèmes de production utilisent directement les réponses LLM sans effectuer ces vérifications, ni effectuer un examen manuel très limité des réponses”, a déclaré Thurai. ” Arrêter les hallucinations de l’IA est un problème que presque tous les fournisseurs d’IA tentent de résoudre en utilisant diverses méthodes. Chacune de ces méthodes est [making] ce plan d’action est légèrement meilleur.
Ces mises à jour justifient au moins une exploration plus approfondie par les entreprises, a déclaré Volk, y compris des comparaisons avec les approches auto-hébergées.
« L’ajout d’explicabilité et de validation des réponses était une autre lacune critique qu’AWS devait combler lors du positionnement de Bedrock par rapport à l’IA auto-hébergée », a-t-il déclaré. “Il faudrait une analyse minutieuse pour comparer les contrôles d’explicabilité, d’auditabilité et de raisonnabilité du nouveau modèle AWS aux autres types.”
Se préparer à l’IA agentique
La concurrence entre les fournisseurs pour capturer les charges de travail d’IA s’est intensifiée à mesure que les charges de travail GenAI à flux unique évoluent vers une IA agentique, dans laquelle des groupes d’entités logicielles se coordonnent automatiquement pour prendre des mesures sur un flux de travail en plusieurs étapes. Les fonctionnalités qui améliorent la précision des applications GenAI seront cruciales pour cette orchestration plus complexe ; d’autres fournisseurs informatiques ont également commencé à prendre en charge l’IA agentique, notamment Microsoft, Google et Atlassian.
Amazon Bedrock Agents, présenté en avant-première cette semaine, ajoute un agent superviseur que les développeurs peuvent utiliser pour coordonner la collaboration multi-agents dans les flux de travail d’IA agentique. Des flux de travail agents plus simples étaient auparavant possibles dans les applications Amazon Bedrock, mais les agents Bedrock prendront en charge des flux de travail à plus grande échelle et plus complexes impliquant des centaines d’agents, selon la présentation principale de Garman.
“[The] L’agent superviseur… agit comme le cerveau de votre travail complexe”, a-t-il déclaré. “Il configure quels agents ont accès aux informations confidentielles. Il peut déterminer si les tâches doivent être exécutées de manière séquentielle ou si elles peuvent être effectuées en parallèle. Si plusieurs agents reviennent avec des informations, cela peut en fait briser les liens entre eux. [them]”.
Le développement de GenAI est une course en évolution rapide, mais un observateur du secteur a déclaré que pour l’instant, les nouvelles fonctionnalités d’Amazon Bedrock différencient AWS des concurrents auto-hébergés et cloud, d’autant plus que les agents Bedrock et la collaboration multi-agents peuvent être créés en utilisant le langage naturel.
“Bedrock propose aux utilisateurs professionnels la possibilité de générer des agents plus haut dans la pile”, a déclaré Keith Townsend, président de The CTO Advisor, une société du groupe Futurum. “La nouvelle vérification logique intégrée réduit le risque d’hallucination et peut potentiellement augmenter la précision sans impliquer les développeurs.”
Les partenaires développeurs d’Amazon Q taquinent les liens agents
Pour les codeurs, Amazon Q Developer, un assistant d’IA basé sur Bedrock, est devenu disponible en avril. Cette semaine, le service a ajouté des fonctionnalités pour les développeurs d’applications telles que la génération de tests unitaires et une documentation de base de code améliorée, ainsi que des fonctionnalités pour les professionnels du DevOps telles que l’enquête et la résolution des problèmes.
Les services de transformation d’Amazon Q Developer ont ciblé les utilisateurs des opérations informatiques avec des outils automatisés de transformation et de modernisation d’applications qui utilisent des agents d’IA « pour automatiser les tâches lourdes impliquées dans la mise à niveau et la modernisation, telles que l’analyse autonome du code source, la génération de nouveau code, le test et l’exécution du changement ». une fois approuvé par le client”, selon un communiqué de presse.
Les partenaires AWS ont également déployé cette semaine les premiers exemples de flux de travail d’IA agentique construits sur Amazon Q, tels que GitLab Duo avec Amazon Q, qui utilise des agents d’IA pour automatiser les flux de travail DevSecOps. Les utilisateurs choisiront parmi un ensemble initial de quatre « actions rapides » qui incluent la génération de code à partir des exigences, la création de tests unitaires, la réalisation de révisions de code et la mise à niveau des applications Java.
“Contenir la portée de l’agent dans une plate-forme comme GitLab est en fait un très bon cas d’utilisation initial pour expérimenter l’IA agentique, au lieu d’un agent qui fonctionne dans toute l’entreprise”, a déclaré Katie Norton, analyste chez IDC. “Une plate-forme unifiée sur un modèle de données unique comme GitLab peut permettre à un agent de déterminer plus facilement la prochaine meilleure action en raison de la profondeur du contexte dont elle dispose.”
De même, PagerDuty, un fournisseur de réponse aux incidents, a démontré les intégrations de gestion des incidents entre son produit PagerDuty Advance, Amazon Bedrock et Amazon Q dès la scène principale. Ailleurs ces dernières semaines, Salesforce a lancé Agentforce et Microsoft a remplacé son Azure AI Studio par Azure AI Foundry, une plate-forme permettant aux développeurs de travailler avec des applications et des agents d’IA. Google s’est lancé très tôt dans la tendance des agents avec le lancement de Vertex AI Agent Builder en avril.
À mesure que l’IA agentique se développe, AWS et ses concurrents doivent continuer à fournir à leurs clients des garanties de sécurité et des garde-fous configurables autour de la technologie, a déclaré Norton. Mais, a-t-elle ajouté, le potentiel de cette nouvelle vague d’innovation en matière d’IA est élevé.
“Nous avons vu des agents d’IA passer d’un concept prometteur à une réalité assez rapidement à la fin de 2024”, a déclaré Norton. “Plus encore que l’IA générative, les agents peuvent réellement parvenir à « l’élimination du travail » dont nous parlons depuis des années.”
Beth Pariseau, rédactrice principale pour TechTarget Editorial, est une vétéran primée du journalisme informatique couvrant DevOps. Vous avez un conseil ? Envoyez-lui un e-mail ou contactez-la @PariseauTT.