Chirag Dekate, vice-président analyste de Gartner, a déclaré que même s’il était impressionné par le modèle multimodal de langage étendu (LLM) d’OpenAI, la société était clairement en train de rattraper ses concurrents, contrairement à son statut antérieur de leader du secteur de la technologie de l’IA générative. .
« Vous commencez maintenant à voir GPT entrer dans l’ère multimodale », a déclaré Dekate. “Mais ils rattrapent leur retard par rapport à Google il y a trois mois lorsqu’il a annoncé Gemini 1.5, qui est son modèle multimodal natif avec une fenêtre contextuelle d’un million de jetons.”
Pourtant, les capacités démontrées par GPT-4o et le chatbot ChatGPT qui l’accompagne sont impressionnantes pour un moteur de traitement du langage naturel. Il affiche une meilleure capacité conversationnelle, où les utilisateurs peuvent l’interrompre et commencer des requêtes nouvelles ou modifiées, et il est également disponible dans 50 langues. Lors d’une démonstration en direct sur scène, le mode vocal a permis de traduire entre Murati parlant italien et Barret Zoph, responsable de la post-formation d’OpenAI, parlant anglais.
Lors d’une démonstration en direct, Zoph a également écrit une équation algébrique sur papier pendant que ChatGPT la regardait à travers l’objectif de l’appareil photo de son téléphone. Zoph a ensuite demandé au chatbot de lui expliquer la solution.
Même si la reconnaissance vocale et les interactions conversationnelles étaient extrêmement humaines, il y avait également des problèmes notables dans le robot interactif où il s’arrêtait pendant les conversations et récupérait les choses quelques instants plus tard.
Il a ensuite été demandé au chatbot de raconter une histoire au coucher. Les présentateurs ont pu interrompre le chatbot et lui faire ajouter plus d’émotion à l’intonation de sa voix et même passer à une interprétation de l’histoire semblable à celle d’un ordinateur.