Dans ta science : les algorithmes font-ils la loi ?
A la croisée de plusieurs disciplines, la Data Science s’appuie sur des méthodes et des algorithmes pour tirer des informations et de la connaissances à partir de données structurées et non structurées. Encore inconnus il y a quelques années, les métiers de la Data Science et du Machine Learning évoluent très vite. Compétences, méthodes, outils… dans cette série d’entretiens, nous confrontons notre expérience à celle du marché, avec la participation de Data Scientists et ingénieurs Machine Learning externes à Devoteam Revolve.
Nous recevons aujourd’hui Aurélie Jean, docteure en sciences et entrepreneure, fondatrice et dirigeante de In Silico Veritas, et co-fondatrice de DPEEX.
Aurélie Jean vient de publier Les algorithmes font-ils la loi ? un essai sur la place des algorithmes dans la société et dans nos institutions juridiques.
Pouvez-vous décrire en quelques mots votre travail ?
Je suis ce qu’on appelle une computational scientist en anglais, ce qui pourrait se traduire par numéricienne en Français. De formation, je développe des modèles mathématiques et des algorithmes pour simuler un phénomène de la réalité dans le but de répondre à une question, résoudre un problème, comprendre des mécanismes voire faire des prédictions.
Aujourd’hui je partage mon temps entre mes activités de conseil et de développement par mon entreprise In Silico Veritas, mon activité de recherche maintenant intégrée à ma deuxième entreprise DPEEX dans le domaine IA médical, l’enseignement en formation continue et l’écriture.
Quelle est la mission du Data Scientist ?
Sa mission est diverse selon le type de projet. Il ou elle peut être chargé de la collecte et du traitement des données, de l’implémentation d’un algorithme et de son entraînement, ou encore de l’exécution de l’algorithme en question et du suivi statistique de son comportement.
Quelles sont les compétences les plus utiles aux métiers de la Data Science ?
Comme je le dis souvent à mes stagiaires et aux juniors qui travaillent avec moi, ils doivent apprendre à s’intéresser à tout. Demain ils appliqueront la science de la data et l’algorithmique à des disciplines qu’ils n’auraient pas imaginé. Il faut qu’ils apprennent aussi à être pédagogue pour pouvoir expliquer ce qu’ils font avec les gens avec lesquels ils seront amenés à collaborer.
Enfin bien évidemment, de la rigueur, de la patience et de la résilience car on est souvent confronté à l’échec… pour mieux améliorer nos modèles!
Quel est le cycle de vie des modèles de Machine Learning ? Combien de temps un cas d’usage reste en R&D avant d’être déployé en production en général ?
Il n’y a pas de bonne réponse, il y a des bonnes pratiques qui impactent le temps vers le déploiement en production en fonction de la complexité du modèle, des risques d’utilisation en fonction du type d’utilisateur et du type de résultats (un algorithme qui amène à une décision qui implique des individus, ou un algorithme qui utilise des données à caractère personnel par exemple).
Quand on développe un modèle, on le teste sur différents environnements, et avec des ensemble de données tests, pour s’assurer qu’il fonctionne correctement et qu’il ne contient pas de biais. Aujourd’hui, il n’y a aucune obligation de tester un algorithme donc c’est aux acteurs de décider quels types de tests ils souhaitent faire passer sur leurs algorithmes. En sachant qu’on continue à les tester régulièrement une fois en production.
Quels outils utilisez vous ? Peut-on parler d’une plateforme Machine Learning ?
Je développe principalement en Python car les librairies sont pratiques en apprentissage machine. Je n’ai pas de plateforme strictement. À mon échelle, je crée mes propres librairies quand cela est nécessaire, et je partage mes codes avec mes collaborateurs via un repository Git.
Sur quels cas d’usage travaillez-vous actuellement ?
Je ne peux pas parler des projets pour mes clients, je peux juste vous dire que je travaille entre autres sur un projet super excitant avec un parfumeur. Avec ma seconde entreprise DPEEX, j’ai co-développé un modèle capable de capturer une signature tumorale au sein à partir d’une simple mammographie, deux ans avant qu’on puisse voir la tumeur sur l’image.
Peut-on faire confiance aux entreprises sur l’éthique de l’IA ? Et aux GAFAM ?
Il faut créer un environnement dans lequel on puisse faire confiance aux acteurs. Pour cela, il faut construire un cadre légal qui encadre les pratiques de développement algorithmique, les usages ainsi que les obligations des acteurs vis-à-vis des utilisateurs mais aussi des États.
Faut-il réguler les algorithmes ?
Comme je l’écris dans mon livre Les Algorithmes font-ils la loi?, un algorithme ne peut pas être régulé dans la mesure où on ne peut pas l’auditer entièrement.
Cela étant dit, il faut construire des lois pour imposer les acteurs à concevoir et appliquer des bonnes pratiques de développement, de test et de communication envers les utilisateurs et les États. Avec au coeur du sujet, l’explicabilité des algorithmes. C’est tout le sujet de mon livre! (rires…)