3 problèmes clés liés à la confidentialité et à la sécurité des données de l’IA générative

Même si l’IA générative suscite l’intérêt de la société, ses implications restent très changeantes. Les professionnels, les utilisateurs occasionnels de technologie, les étudiants et des centaines d’autres groupes utilisent aujourd’hui les outils GenAI allant de ChatGPT à Microsoft Copilot. Les cas d’utilisation couvrent toute la gamme, de la création d’art IA à la distillation de grandes œuvres.

La technologie se développe à un rythme alarmant, en particulier pour les professionnels de la sécurité de l’information et de la confidentialité dont l’accent est mis sur la gouvernance des données. Beaucoup de ces praticiens tiennent toujours GenAI à bout de bras.

GenAI apprend des données et a un appétit vorace. Les développeurs, les bailleurs de fonds et les utilisateurs d’IA sont souvent trop désireux de transvaser des portions de données dans de grands modèles de langage (LLM) pour obtenir des résultats uniques et profonds de la plate-forme.

Malgré les avantages, cela expose trois problèmes majeurs en matière de confidentialité et de sécurité des données de l’IA générative.

1. À qui appartiennent les données ?

Dans l’Union européenne, l’un des principes fondamentaux du RGPD est que la personne concernée est incontestablement propriétaire de ses données. Aux États-Unis, cependant, malgré une série de réglementations au niveau des États calquées sur le RGPD, la propriété reste une zone grise. La possession de données n’est pas la même chose que la propriété, et même si les utilisateurs de GenAI peuvent télécharger des données dans le modèle, elles peuvent ou non leur appartenir. De telles indiscrétions avec des données tierces pourraient entraîner des responsabilités de la part du fournisseur LLM.

Il s’agit d’un nouveau domaine de litige qui reste à explorer, mais se cache dans l’ombre une montagne d’affaires antérieures en matière de propriété intellectuelle qui pourraient éclairer les précédents. Les principaux acteurs du secteur technologique, notamment Slack, Reddit et LinkedIn, ont tous rencontré une résistance importante de la part des consommateurs lorsqu’ils ont été confrontés à la perspective de voir leurs données utilisées pour entraîner les modèles d’IA respectifs des entreprises.

2. Quelles données peuvent être dérivées des résultats du LLM ?

GenAI manque ostensiblement de ruse ou de duplicité ; son but est d’être utile. Pourtant, si les instructions sont correctes, les données générées par un fournisseur GenAI peuvent potentiellement être utilisées comme arme. Toute information soumise à un LLM pourrait également être utilisée comme résultat, ce qui rendrait de nombreuses personnes nerveuses à l’idée que leurs informations sensibles ou critiques soient intégrées au modèle.

La tokenisation, l’anonymisation et la pseudonymisation des données peuvent atténuer efficacement ces risques, mais elles pourraient également compromettre la qualité des données utilisées par le modèle. Les partisans de GenAI soulignent que l’exactitude et la légitimité des données, quelle que soit leur classification, sont primordiales. Sans cela, disent-ils, les modèles d’IA actuels ne sont pas aussi efficaces qu’ils pourraient l’être.

3. Le résultat peut-il être fiable ?

Un terme intéressant est devenu populaire auprès de GenAI : hallucination. Une hallucination est un phénomène bien trop fréquent où un modèle GenAI invente une réponse complètement fausse. Que ce soit le résultat d’une mauvaise formation ou d’une bonne formation avec de mauvaises données – les « mauvaises données » étant une sous-catégorie entière qui soulève des questions d’intention – GenAI est encore suffisamment tôt dans son cycle de vie pour que des erreurs se produisent. Selon le cas d’utilisation utilisé, les conséquences d’une hallucination peuvent varier d’un inconvénient mineur à un résultat beaucoup plus dangereux.

Où GenAI tire sa puissance

GenAI tire sa puissance de l’information. Mais ceux qui gèrent ces informations – parmi lesquels les praticiens de la sécurité de l’information, de la confidentialité des consommateurs et de la gouvernance des données – doivent répondre à des questions importantes qui vont de la compréhension à qui appartiennent les données utilisées pour former les LLM jusqu’à la détermination de la manière dont les données sont utilisées par le modèle et qui peut extrayez-le.

Les enjeux en matière de confidentialité et de sécurité des données de l’IA générative sont élevés, et il n’existe aucune possibilité significative de remettre le génie dans la bouteille une fois que des violations de propriété intellectuelle ont eu lieu.

Nous sommes au bord d’un monde nouveau et audacieux, et comme on l’a vu tout au long de l’histoire, de tels progrès ne se font pas sans quelques obstacles.

Mike Pedrick est vCISO et consultant, conseiller, mentor et formateur. Il est présent des deux côtés de la table conseil/client en informatique, SI et GRC depuis plus de 20 ans.

Partager cet Article
Quitter la version mobile