OpenAI le concède à peu près dans le rapport : « Dans ce travail, nous contournerons le caractère ouvert des modèles de langage en considérant uniquement des questions courtes et factuelles avec une seule réponse. Cette réduction de la portée est importante car elle rend la mesure de la factualité beaucoup plus facile, bien qu’au prix de laisser ouvertes des questions de recherche telles que celle de savoir si un comportement amélioré sur la factualité courte se généralise à la factualité longue.
Plus loin dans le rapport, OpenAI précise : « L’une des principales limites de SimpleQA est que, bien qu’il soit précis, il ne mesure la factualité que dans le cadre contraint de requêtes courtes de recherche de faits avec une réponse unique et vérifiable. La question de savoir si la capacité à fournir des réponses brèves et factuelles est en corrélation avec la capacité à rédiger de longues réponses remplies de nombreux faits reste une question de recherche ouverte.
Voici les détails : SimpleQA se compose de 4 326 « questions courtes et factuelles ».