“La popularité de l’IA générative a fait monter en flèche la demande de contenu utilisé pour entraîner des modèles ou exécuter des inférences, et bien que certaines sociétés d’IA identifient clairement leurs robots de grattage Web, toutes les sociétés d’IA ne sont pas transparentes”, a écrit le personnel de Cloudflare dans un article de blog. .
Selon les auteurs du message, « Google aurait payé 60 millions de dollars par an pour obtenir une licence sur le contenu généré par les utilisateurs de Reddit, Scarlett Johansson a allégué qu’OpenAI avait utilisé sa voix pour son nouvel assistant personnel sans son consentement, et plus récemment, Perplexity a été accusé d’usurper l’identité de visiteurs légitimes. afin de récupérer le contenu des sites Web. La valeur du contenu original en masse n’a jamais été aussi élevée.
L’année dernière, Cloudflare a introduit un moyen pour tous ses clients, quel que soit leur forfait, de bloquer des catégories spécifiques de robots, y compris certains robots d’exploration IA. Ces robots, a déclaré Cloudflare, observent les requêtes dans les fichiers robots.txt des sites et n’utilisent pas de contenu sans licence pour former leurs modèles, ni ne se rassemblent pour alimenter les applications de génération augmentée par récupération (RAG).