Dans cette interview de Help Net Security, Saira Jesani, directrice exécutive de Data & Trust Alliance, discute du rôle de la provenance des données dans la fiabilité de l’IA et de son impact sur les performances et la fiabilité des modèles d’IA.
Jesani souligne le processus collaboratif derrière le développement de normes de métadonnées intersectorielles pour relever les défis généralisés liés à la provenance des données et garantir l’applicabilité dans divers secteurs.
Pouvez-vous expliquer pourquoi la provenance des données est essentielle à la fiabilité de l’IA et quel impact cela a-t-il sur les performances et la fiabilité globales des modèles d’IA ?
La provenance des données offre une transparence sur l’origine, la lignée et les droits associés aux ensembles de données, utilisés à la fois dans l’IA et dans les applications de données traditionnelles. Cette transparence permet aux développeurs et aux utilisateurs de comprendre d’où proviennent les données, quand elles ont été collectées et comment elles ont été générées ou traitées.
Connaître la source et l’historique des ensembles de données peut aider les organisations à mieux évaluer leur fiabilité et leur adéquation à la formation ou à l’ajustement des modèles d’IA. Ceci est crucial car la qualité des données d’entraînement affecte directement les performances et la précision des modèles d’IA. Comprendre les caractéristiques et les limites des données de formation permet également de mieux évaluer les performances du modèle et les modes de défaillance potentiels.
La provenance des données peut également aider à identifier les biais potentiels dans les ensembles de données. En comprenant l’origine des données et les méthodes de collecte, les organisations peuvent repérer et traiter les signaux impliquant des biais qui pourraient autrement se propager via les modèles d’IA, conduisant à des résultats injustes ou discriminatoires.
Une provenance claire des données peut également réduire le temps consacré aux tâches de préparation et de nettoyage des données par les data scientists. Ce gain d’efficacité laisse plus de temps pour le développement et l’affinement des modèles, ce qui pourrait conduire à des systèmes d’IA plus performants.
À mesure que les réglementations sur l’IA, telles que la loi européenne sur l’IA, évoluent, la provenance des données devient de plus en plus importante pour démontrer leur conformité. Il permet aux organisations de montrer qu’elles utilisent les données de manière appropriée et qu’elles se conforment aux lois et réglementations en vigueur.
Enfin, le manque de clarté actuel sur la traçabilité et la provenance des données est cité comme l’un des principaux obstacles à l’adoption de l’IA générative par les PDG. La mise en œuvre de pratiques robustes en matière de provenance des données peut aider à surmonter cet obstacle et à accélérer l’adoption responsable de l’IA dans les entreprises.
Ces normes sont décrites comme les premières normes de métadonnées intersectorielles. Comment garantissent-ils l’applicabilité et la pertinence dans différents secteurs tels que la santé, la finance et la technologie ?
Les normes ont été délibérément conçues pour être intersectorielles, avec des experts de 19 grandes entreprises représentés au sein du groupe de travail. Ils comprenaient American Express, Humana, IBM, Mastercard, Nielsen, Pfizer, UPS et Walmart. Ce groupe diversifié de contributeurs avec des fonctions telles que directeurs de la technologie, directeurs des données et leaders en matière de gouvernance des données, d’acquisition de données, de qualité des données, de confidentialité, de droit et de conformité a veillé à ce que les normes répondent aux défis et besoins communs dans plusieurs secteurs.
Le groupe de travail a dérivé les normes à partir de cas d’utilisation dans 15 secteurs, soulignant les défis liés à la provenance des données rencontrés dans divers contextes commerciaux. Ils ont veillé à ce que les normes abordent des problèmes répandus tels que la conformité réglementaire, l’assurance qualité des données et la fiabilité de l’IA. Il s’agit de préoccupations partagées par les organisations de tous les secteurs, ce qui rend les normes largement applicables.
Les normes ont été conçues en tenant compte de la croissance rapide des applications d’IA. Grâce à la validation et aux tests effectués à l’intérieur et à l’extérieur de l’Alliance, nous avons déterminé que les normes prennent également en charge les applications de données traditionnelles. Cette approche rend les normes pertinentes pour les industries à différents stades d’adoption technologique.
La création de ces normes a impliqué des experts de diverses industries. Pouvez-vous partager des idées sur le processus collaboratif et comment il a influencé les normes finales ?
Le processus a commencé par la collecte de cas d’utilisation dans 15 secteurs qui ont décrit les défis réels rencontrés en raison du manque de provenance des données. Au cours de plus de 150 sessions au total, les praticiens ont affiné et validé les normes, avec deux objectifs en tête : (1) ajouter de la valeur commerciale et (2) être réalisables et pratiques à mettre en œuvre.
Le groupe de travail s’est concentré sur la sélection uniquement des métadonnées les plus essentielles pour suivre l’origine d’un ensemble de données, sa méthode de création et sa possibilité d’être légalement utilisée. En novembre 2023, la Data & Trust Alliance a publié publiquement des projets de normes pour solliciter des commentaires et de nouveaux cas d’utilisation.
La simplification était un objectif clé – pour répondre aux besoins des organisations de toutes tailles et donner la priorité à la transparence et à la confiance – en réduisant les huit catégories initiales à trois normes rationalisées, avec des métadonnées révisées mettant l’accent sur les preuves pratiques.
Des préoccupations spécifiques, telles que les technologies améliorant la confidentialité (PET) et le langage du consentement, ont été abordées, démontrant la réactivité des normes aux problèmes spécifiques à l’industrie. Les tests et la validation en conditions réelles auprès de plus de 50 organisations dans toutes les zones géographiques et tous les secteurs ont affiné les normes et nous ont assuré qu’elles ajoutaient de la valeur commerciale et pouvaient être adoptées.
Quelles mesures une organisation doit-elle prendre pour adopter ces normes de provenance des données ? Existe-t-il des conditions préalables ou des technologies spécifiques nécessaires à la mise en œuvre ?
Les conditions préalables à la mise en œuvre sont axées sur l’alignement des personnes au sein de l’organisation, plutôt que sur la mise en place d’outils spécifiques. Ceux qui travaillent sur l’acquisition et la mise en œuvre de données pour l’IA devraient être impliqués, tout comme la gouvernance des données, les développeurs et les experts juridiques et en conformité, qui sont nécessaires à l’adoption réussie des normes.
Les organisations doivent commencer par examiner la documentation des normes, y compris la présentation générale, les scénarios de cas d’utilisation et les spécifications techniques (disponibles sur GitHub). Il est recommandé de lancer une preuve de concept (PoC) avec un fournisseur de données pour renforcer la confiance interne. Les organisations manquant de ressources ou déployant un PoC « light » peuvent choisir d’utiliser notre outil générateur de métadonnées pour créer et accéder à des fichiers de métadonnées standardisés (format JSON, XML, YAML, CSV).
Pour ceux qui sont prêts à mettre en œuvre dans un environnement sandbox, nous recommandons de tirer parti du centre de ressources techniques sur GitHub pour obtenir des normes techniques détaillées et des actifs de mise en œuvre. S’engager avec la communauté de pratique, fournir des commentaires via le formulaire de demande de modification et collaborer avec les fournisseurs de données et les éditeurs de logiciels – tous membres de notre communauté et travaillant pour fournir des solutions partagées – sont également essentiels pour une adoption réussie.
Comment voyez-vous évoluer le rôle de la provenance des données dans l’avenir de l’IA ? Quels développements ou améliorations supplémentaires prévoyez-vous ?
La provenance des données deviendra de plus en plus critique pour leur utilisation dans l’IA, en raison du besoin de transparence, de confiance et de conformité réglementaire. Les normes D&TA amélioreront la transparence en fournissant un cadre clair pour documenter l’origine des données et leur utilisation appropriée, ce qui est essentiel pour instaurer la confiance entre les utilisateurs (y compris les consommateurs finaux) et les régulateurs. À mesure que les systèmes d’IA sont de plus en plus intégrés dans divers secteurs, l’adoption de ces normes peut contribuer à garantir que les données utilisées dans les applications d’IA sont fiables et conformes à la loi, atténuant ainsi les risques liés à la vie privée, aux droits d’auteur et à la protection des marques.
Les développements futurs en matière de provenance des données devraient inclure l’intégration des technologies blockchain et Web3 pour créer des enregistrements immuables de l’origine des données, renforçant ainsi la responsabilité. Nous nous attendons à ce que les normes évoluent pour répondre à ces changements. Nous pourrions également voir des outils de gestion des métadonnées plus sophistiqués et des solutions de conformité automatisées qui rationalisent le respect de ces normes et nous avons déjà entamé des discussions avec les principaux fournisseurs de solutions du secteur. À mesure que les normes seront plus largement adoptées, elles favoriseront une plus grande interopérabilité et collaboration entre les secteurs, contribuant ainsi à un écosystème d’IA plus transparent et plus fiable.