Selon une étude d’IDC, 66 % des entreprises dans le monde ont déclaré qu’elles investiraient dans genAI au cours des 18 prochains mois. Parmi les organisations indiquant qu’elles augmenteront leurs dépenses informatiques pour genAI en 2024, l’infrastructure représentera 46 % des dépenses totales.
Le problème : un élément matériel clé nécessaire pour développer cette infrastructure d’IA est rare. Alors que les GPU sont très demandés pour exécuter les grands modèles de langage (LLM) les plus massifs derrière genAI, le marché a toujours besoin de puces mémoire hautes performances pour les applications d’IA. Le marché est tendu pour les deux – pour l’instant.
Les GPU utilisés pour les tâches de formation et d’inférence sur les LLM peuvent consommer de grandes quantités de cycles de processeur et être coûteux à utiliser. Les modèles plus petits, davantage axés sur l’industrie ou l’entreprise, peuvent souvent fournir de meilleurs résultats adaptés aux besoins de l’entreprise, et ils peuvent utiliser des processeurs x86 courants avec des NPU.
“Alors que l’accent est mis sur l’utilisation de GPU hautes performances pour les nouvelles charges de travail d’IA, les principaux hyperscalers (AWS, Google, Meta et Microsoft) investissent tous dans le développement de leurs propres puces optimisées pour l’IA”, a déclaré Priestley.
Bien que le développement de puces soit coûteux, l’utilisation de puces conçues sur mesure peut améliorer l’efficacité opérationnelle, réduire les coûts de fourniture de services basés sur l’IA aux utilisateurs et réduire les coûts pour les utilisateurs d’accéder à de nouvelles applications basées sur l’IA, selon Priestley.
“Alors que le marché passe du développement au déploiement, nous nous attendons à voir cette tendance se poursuivre”, a déclaré Priestley.