Pourquoi faut-il plus de diversité dans l’intelligence artificielle ?

Temps de lecture : 6 minutes

Cet article fait suite au talk homonyme donné lors du Summit AWS Paris 2022 par Virginie Mathivet.

Lors de l’édition 2022 du Summit AWS, Virginie Mathivet a en 30 minutes fait le tour de la question des biais dans l’IA. Cet article permet de partager à la communauté ce qu’il faut retenir de ce talk sans concession. Nous allons consécutivement présenter les causes des biais dans l’IA ainsi que leurs répercussions palpables dans notre quotidien. Nous verrons par la suite des pistes de solutions, notamment une nouvelle fonction de Scikit-Learn qui se veut miraculeuse. Nous terminerons par clairement répondre à la question : pourquoi faut-il plus de diversité dans l’intelligence artificielle pour supprimer les biais ?

Qui est Virginie Mathivet?

Il est important de s’attarder sur la speaker et son background pour juger de la portée de ses propos. Docteure en Intelligence Artificielle, Virginie Mathivet a longtemps enseigné les différents paradigmes de l’Ingénierie Informatique à l’EPSI (École Privée des Sciences Informatiques). Elle a publié 5 livres aux éditions ENI, entre autres Intelligence artificielle pour les développeurs et Machine Learning – Implémentation en Python avec Scikit-learn. Elle donne par ailleurs des conférences et formations sur l’IA pour débutants et plus aguerris. Elle est ainsi devenue AWS Machine Learning Hero en 2021. En parallèle, Dr. Mathivet est directrice du département Modern Data et de la R&D de Teamwork, entreprise qu’elle a rejoint il y a un peu plus de 5 ans. Son expertise IA a été reconnue par le  WHAT06 – Women Hackers Action Tank qui lui a décerné le prix  “Experte IA” lors de l’édition 2022 des “Women in Tech” awards .

A lire également sur le blog, l’interview « Dans ta science » de Virginie Mathivet, publiée en novembre 2021.

Constat

Les modèles d’IA sont, dans leur majorité, fondamentalement biaisés. Un biais peut être défini comme l’observation d’une erreur systématique sur un groupe d’objets, de personnes. Ces biais peuvent sembler lointains ou ne concerner que les data scientists, pourtant les biais sont présents dans nos applications quotidiennes reposant sur des modèles d’Intelligence Artificielle. 

Si je vous dis que l’algorithme de Google traduction est biaisé et pourrait même être qualifié de sexiste ou du moins de “reproduisant le sexisme ambiant” ?

On voit ici comment la traduction fait un changement de genre: l’infirmier est devenu l’infirmière en faisant une permutation de langues (français – anglais/ anglais – français). Ce qui laisse sous-entendre que le métier d’infirmier serait un métier de femmes. En réalité, Google est conscient du problème depuis 2018, année au cours de laquelle les gender-specific translations ont été annoncées. Depuis 2020, la traduction d’un mot gender-neutral dans la langue source est en effet précisée pour le masculin et le féminin. De ce fait, contrairement à celle de la phrase ci-dessus, la traduction du mot “nurse”, seul, se veut inclusive. Pour en savoir plus, dans l’attente du même système pour les phrases.

Que faire?

Il est valeur courante, que les biais sont du fait des data scientists. Lors de la remise du rapport « AI for humanity » de Cédric Viliani au Collège de France en 2018, le président Emmanuel Macron a ainsi affirmé : « Il ne faut pas qu’ils [étudiants et chercheurs dans l’IA] soient ce que je suis devant vous, un mâle blanc quadragénaire formé dans les grandes universités européennes et américaines ». Ceci pour signifier qu’il faut plus de diversité dans l’IA. 

L’équipe de développement du package Scikit-Learn s’est saisie du problème à bras le corps. Elle propose une fonction qui permettrait de limiter, voire complètement supprimer, les biais dans les algorithmes. Il s’agit de la fonction setDataScientist() du module Config qui, en fonction du genre, de la sexualité ou encore de la couleur de peau du data scientist, supprime tous les biais y afférent. Cette fonction reste peu connue du fait de l’absence de documentation du module Config.

La fonction config() permet d’afficher la configuration actuelle.

Lorsqu’aucune configuration n’est donnée, il n’y a effectivement rien à signaler.

En précisant la race du data scientist, on a:

Pareillement pour le sexe:

C’est plutôt beau et magique non ?

(Pour accéder au code de cette fonction magique, c’est par ici).

Revenons sur terre

Évidemment, cette fonction n’existe pas et quand bien même, elle n’aurait pas été bien utile vu que les biais ne viennent pas du data scientist. Aucun datascientist – blanc, jaune, homme, femme, … – ne souhaite intentionnellement développer des modèles biaisés. Ces derniers sont plutôt causés par les datasets. Un dataset biaisé induit inéluctablement un modèle biaisé. Les données d’entraînement peuvent en effet souvent reproduire les biais sociétaux. C’est dans cette optique que Chip Huyen affirme dans Machine Learning Systems in Production que «les algorithmes de machine learning ne prédisent pas le futur, mais encodent le passé» , passé représenté par les données d’entraînement.

Lutter contre les biais dans l’IA revient principalement à entraîner les modèles avec des datasets d’entraînement plus inclusifs, intégrant toutes les catégories d’individus, leurs particularités et différents usages.

L’un des exemples les plus marquants de ces dernières années est celui des véhicules autonomes Uber. En 2018, l’un d’eux tue une cycliste américaine traversant hors des clous. Ce drame aurait vraisemblablement pu être évité si les datasets avaient intégré le fait que des individus puissent traverser hors des clous pour telle ou telle raison, comme l’absence de passages piétons en milieux ruraux…

Autre exemple avec des conséquences moins dramatiques, en 2015, l’application alors nouvelle Google Photos confond deux Afro-américains avec des gorilles. Ce problème venait simplement du manque de personnes afro-américaines dans les données d’entraînement.

Que faire?…réellement 

L’institut Montaigne s’est intéressé au sujet des biais dans l’IA et a sorti en mars 2020 son rapport sur la question, Algorithmes : contrôle des biais S.V.P.

On y retrouve ce graphique qui explique les biais potentiels et leurs différentes origines :

Les biais peuvent en effet s’incruster à tous les niveaux d’un projet d’IA et à toutes les étapes de création du dataset. Données manquantes, extraction partielle de la base de données, suppression de lignes avec des valeurs nulles, mais correspondant à une frange de la population, données historiques reproduisant les biais sociétaux… sont là quelques facteurs de biaisement du dataset.

La façon la plus efficace de limiter ces biais, serait d’avoir des personnes en charge de détecter et de supprimer les biais aux différentes étapes de construction des datasets. Si ces individus ont les mêmes systèmes de pensée, les mêmes caractéristiques, l’ensemble de biais ne sera certainement pas décelé. A contrario, avec des personnes différentes entre elles et dans tous les sens du terme, le maximum de biais sera supprimé. C’est donc pour cette raison qu’il faut plus de femmes dans l’IA, mais pas uniquement :

Plus les équipes seront diverses, moins biaisés seront les datasets, et les modèles suivront…

Commentaires :

A lire également sur le sujet :