Que diable sont les « modèles de fondation mondiaux » ?
Si vous n’êtes pas familier avec l’expression « World Foundation Models », cela a du sens, car elle est assez nouvelle et très probablement inventée par Nvidia. Il réunit les concepts existants (mais aussi récents) de « modèles mondiaux » (systèmes d’IA qui créent des représentations internes de leur environnement pour simuler et prédire des scénarios complexes) et de « modèles de base » (systèmes d’IA formés sur de vastes ensembles de données pouvant être adaptés pour un large gamme de tâches).
Selon Nvidia, les WFM constituent un moyen simple de générer des quantités massives de données artificielles photoréalistes basées sur la physique pour entraîner des modèles existants ou créer des modèles personnalisés. Les développeurs de robots peuvent ajouter leurs propres données, telles que des vidéos capturées dans leur propre usine, puis laisser Cosmos se multiplier et étendre le scénario de base avec des milliers d’autres, donnant ainsi à la programmation du robot la possibilité de choisir les mouvements corrects ou les meilleurs pour la tâche à accomplir.
La plate-forme Cosmos comprend des WFM génératifs, des tokeniseurs avancés, des garde-corps et un pipeline de traitement vidéo accéléré. Les développeurs peuvent utiliser Omniverse de Nvidia pour créer des scénarios géospatiaux précis qui tiennent compte des lois de la physique. Ensuite, ils peuvent générer ces scénarios dans Cosmos, créant ainsi des vidéos photoréalistes qui fournissent les données nécessaires au retour d’information sur l’apprentissage par renforcement robotique.