En réponse aux efforts juridiques visant à freiner sa collecte de données, OpenAI fait valoir que la création d’outils avancés d’IA générative (genAI) est irréalisable sans l’utilisation de contenu protégé par le droit d’auteur pour les former.
Dans un rapport soumis au Comité de sélection des communications et du numérique de la Chambre des Lords du Royaume-Uni, OpenAI a déclaré que la formation de modèles de langage étendus (LLM) étendus tels que GPT-4, la technologie sous-jacente de ChatGPT, serait impossible sans l’utilisation de matériels protégés par le droit d’auteur.
“Parce que le droit d’auteur couvre aujourd’hui pratiquement tous les types d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les fragments de code logiciel et les documents gouvernementaux – il serait impossible de former les principaux modèles d’IA d’aujourd’hui sans utiliser des matériaux protégés par le droit d’auteur”, a déclaré OpenAI dans son rapport. soumission.
Les applications GenAI telles que ChatGPT ou l’outil de génération d’images Stable Diffusion sont construites à partir de grandes quantités de données – dont la plupart sont protégées par les lois sur le droit d’auteur – collectées sur Internet. Cela a conduit à une réticence croissante de la part des éditeurs et des auteurs qui affirment que leur travail est utilisé sans crédit ni compensation.
Préoccupations concernant le code protégé par le droit d’auteur
Les développeurs utilisent des ressources telles que Google et StackOverflow depuis des décennies, a déclaré Daniel Li, PDG de Plus Docs, une société dont le logiciel utilise genAI pour concevoir, créer et éditer des présentations. ChatGPT, dit-il, permet simplement encore plus de facilité d’utilisation lors du codage.
«Cependant, il est important de comprendre que les développeurs doivent encore comprendre leur code. ChatGPT ne change pas cette exigence », a-t-il déclaré.
Li a convenu que « les entreprises doivent faire très attention à ne pas utiliser de code ou tout autre texte protégé par le droit d’auteur. C’est déjà un sujet majeur dans les acquisitions de logiciels pour les grandes entreprises technologiques, et cela ne fera que gagner en importance. »
La déclaration d’OpenAI intervient alors que l’entreprise fait face à une série de poursuites judiciaires. La semaine dernière, Le New York Times a intenté une action en justice contre elle et Microsoft, un investisseur important dans l’entreprise et un utilisateur de ses outils dans divers produits Microsoft ; la poursuite allègue l’utilisation illégale de New York Times contenu dans la création d’outils OpenAI. OpenAI a fait valoir en retour que la loi sur le droit d’auteur n’interdit pas la formation de modèles genAI.
L’année dernière, OpenAI a fait face à un recours collectif fédéral en Californie, l’accusant d’utiliser illégalement des données personnelles à des fins de formation. Ce procès, intenté dans le district nord de Californie, citait 15 violations, notamment des violations de la loi sur la fraude et les abus informatiques, de la loi sur la confidentialité des communications électroniques et de diverses lois sur les droits des consommateurs au niveau de l’État.
L’allégation centrale du procès californien est qu’OpenAI a « acquis illégalement » les données privées des plaignants et les a utilisées sans fournir de compensation.
Selon la plainte, « OpenAI a utilisé ces données détournées pour affiner et faire progresser [ChatGPT] grâce à des modèles linguistiques étendus et des algorithmes linguistiques avancés, lui permettant de produire et de comprendre un langage semblable à celui d’un humain, applicable à une multitude d’utilisations.
Les poursuites se multiplient
L’affaire californienne fait partie d’une lutte juridique croissante contre les efforts visant à freiner la collecte de données généralisée par les outils genAI. Un groupe d’auteurs de non-fiction a lancé un recours collectif contre OpenAI et Microsoft, alléguant que les sociétés ont violé les droits d’auteur des auteurs en utilisant leurs écrits et articles universitaires pour former ChatGPT sans autorisation.
Le principal plaignant est Julian Sancton, l’auteur de « Madhouse at the End of the Earth : The Belgica’s Journey Into the Dark Antarctic ». Cette poursuite accuse OpenAI et Microsoft d’avoir méprisé de manière flagrante les lois sur le droit d’auteur pour créer « une entreprise de plusieurs milliards de dollars en utilisant les œuvres collectives de l’humanité sans autorisation ». Au lieu de compenser la propriété intellectuelle, ils agissent comme si les lois sur le droit d’auteur n’existaient pas.
John Licato, professeur adjoint d’informatique et d’ingénierie à l’Université de Floride du Sud, a déclaré que la position d’OpenAI pourrait entraîner des problèmes de droits d’auteur.
“La frontière entre l’adaptation d’idées existantes et la véritable création de quelque chose de nouveau est déjà floue, et l’IA nous oblige à constater à quel point cette distinction est mal définie”, a déclaré Licato.