Les données ouvertes et la boîte noire de l’IA

L’intelligence artificielle (IA) fait la une des journaux avec de nouveaux outils comme ChatGPT et DALL-E 2 , mais elle est déjà là et a des impacts majeurs sur nos vies. De plus en plus, nous voyons les forces de l’ordre, les soins médicaux, les écoles et les lieux de travail se tourner tous vers la boîte noire de l’IA pour prendre des décisions qui changent la vie – une tendance que nous devrions défier à chaque tournant.

Les vastes ensembles de données souvent secrets derrière cette technologie, utilisés pour former l’IA avec l’apprentissage automatique, viennent avec des bagages. Les données recueillies par la surveillance et l’exploitation refléteront les biais systémiques et seront « apprises » au cours du processus. Dans leur pire forme, les mots à la mode de l’IA et de l’apprentissage automatique sont utilisés pour “nettoyer la technologie” de ce biais, permettant aux puissants de renforcer les pratiques oppressives derrière la supposée objectivité du code.

Il est temps de casser ces boîtes noires. L’adoption d’ensembles de données ouvertes maintenus en collaboration dans le développement de l’IA serait non seulement une aubaine pour la transparence et la responsabilité de ces outils, mais permettrait également aux sujets potentiels de créer leurs propres travaux et recherches innovants et stimulants. Nous devons récupérer ces données et exploiter le pouvoir d’une science démocratique et ouverte pour construire de meilleurs outils et un monde meilleur.

Garbage in, Gospel out

L’apprentissage automatique est un outil puissant, et il existe de nombreux cas d’utilisation impressionnants : comme la recherche de signes de vie sur Mars ou la création d’anticorps synthétiques . Mais à la base, ces algorithmes ne sont aussi “intelligents” que les données qu’ils reçoivent. Vous connaissez le dicton : « Garbage in, garbage out ». L’apprentissage automatique s’appuie en fin de compte sur les données de formation pour apprendre à faire de bonnes suppositions, dont la logique est généralement inconnue même des développeurs. Mais même les meilleures suppositions ne doivent pas être prises comme parole d’évangile.

Les choses tournent mal lorsque cette logique voilée est utilisée pour prendre des décisions qui changent la vie. Considérez l’ impact des outils de police prédictive , qui reposent sur des données notoirement inexactes et biaisées sur la criminalité . Cette recherche de «crimes futurs» activée par l’IA est un parfait exemple de la façon dont ce nouvel outil transforme les données policières biaisées en une police biaisée, avec des algorithmes mettant l’accent sur les quartiers déjà sur-policés. Cette prophétie auto-réalisatrice est même déployée pour prédire la criminalité par la forme de votre visage . Ensuite, lors de la détermination de la caution en espèces , un autre algorithme peut fixer le prix en utilisant des données criblées des mêmes biais racistes et classistes.

Heureusement, les lois sur la transparence permettent aux chercheurs d’identifier et d’attirer l’attention sur ces problèmes. Les données sur la criminalité, verrues et tout, sont souvent mises à la disposition du public. Cette même transparence n’est pas attendue des acteurs privés comme votre employeur , votre propriétaire ou votre école .

La réponse n’est pas simplement de rendre toutes ces données publiques. Certaines IA sont formées sur des informations légitimement sensibles, même si elles sont accessibles au public . Ce sont des actifs toxiques provenant d’un mélange de surveillance et de divulgations de données forcées. La préparation de ces données est elle-même douteuse, reposant souvent sur des armées de travailleurs hautement exploités sans aucun moyen de signaler les problèmes liés aux données ou à leur traitement. Et malgré de nombreuses affirmations de “sauce secrète”, l’anonymisation de ces grands ensembles de données est très difficile et peut-être même impossible , et les impacts d’une violation auraient un impact disproportionné sur les personnes suivies et exploitées pour le produire.

Au lieu de cela, adopter des ensembles de données ouvertes maintenus en collaboration permettrait aux scientifiques des données, qui sont déjà des experts des questions de transparence et de confidentialité relatives aux données, de les maintenir de manière plus éthique. En mutualisant les ressources de cette manière, une collecte de données consensuelle et transparente aiderait à remédier à ces biais, mais libérerait le potentiel créatif de la science ouverte pour l’avenir de l’IA.

Un avenir ouvert et stimulant de l’IA

Comme nous le voyons ailleurs dans Open Access , cette suppression des barrières et des paywalls aide les personnes disposant de moins de ressources à accéder et à développer une expertise. Le résultat pourrait être un écosystème où l’IA ne sert pas seulement les nantis aux démunis, mais dans lequel tout le monde peut bénéficier du développement de ces outils.

Les logiciels Open Source ont depuis longtemps prouvé la puissance de la mutualisation des ressources et de l’expérimentation collective. Il en va de même pour les données ouvertes – rendre les données librement accessibles peut identifier les lacunes et permettre aux gens de s’appuyer sur le travail des autres de manière plus démocratique. Des données délibérément biaisées (ou « empoisonnement des données ») sont possibles et ce comportement contraire à l’éthique se produit déjà dans des systèmes moins transparents et est plus difficile à détecter. Bien qu’une évolution vers l’utilisation des données ouvertes dans le développement de l’IA aiderait à atténuer les préjugés et les fausses affirmations, ce n’est pas une panacée ; même des outils nuisibles et secrets peuvent être construits avec de bonnes données.

Mais un système ouvert pour le développement de l’IA, des données au code en passant par la publication, peut apporter de nombreux avantages humanitaires, comme l’utilisation de l’IA dans la recherche médicale vitale . La capacité de remixer et de collaborer rapidement à la recherche médicale peut dynamiser le processus de recherche et découvrir des découvertes manquées dans les données. Le résultat? Outils de diagnostic médical et de traitements vitaux pour tous les peuples, atténuant les préjugés raciaux , sexistes et autres dans la recherche médicale.

Les données ouvertes font que les données fonctionnent pour les gens. Bien que l’expertise et les ressources nécessaires à l’apprentissage automatique restent un obstacle pour de nombreuses personnes, des projets participatifs comme Open Oversight permettent déjà aux communautés de fournir des informations sur la visibilité et la transparence des forces de l’ordre. Être capable de collecter, d’utiliser et de remixer des données pour créer leurs propres outils amène la recherche sur l’IA des tours d’ivoire dans les rues et brise les déséquilibres de pouvoir oppressifs.

Les données ouvertes ne consistent pas seulement à rendre les données accessibles. Il s’agit d’embrasser les perspectives et la créativité de tous pour jeter les bases d’une société plus équitable et plus juste. Il s’agit de mettre fin à la collecte de données d’exploitation et de s’assurer que tout le monde bénéficie de l’avenir de l’IA.

PAR RORY MIR ET MOLLY DE BLANC

Cet article a été publié en partenariat avec EFF