Dans ta science : le traitement d’image par l’IA avec Syntyche Gbehounou

Temps de lecture : 10 minutes

A la croisée de plusieurs disciplines, la Data Science s’appuie sur des méthodes et des algorithmes pour tirer des informations et de la connaissances à partir de données structurées et non structurées. Encore inconnus il y a quelques années, les métiers de la Data Science et du Machine Learning évoluent très vite. Compétences, méthodes, outils… dans cette série d’entretiens, nous confrontons notre expérience à celle du marché, avec la participation de Data Scientists et spécialistes de l’IA externes à Devoteam Revolve.

Nous recevons aujourd’hui Syntyche Gbehounou, Docteure en traitement d’image, et co-créatrice du podcast Horizon IA avec Stéphanie Lopez, dont vous pouvez lire l’interview ici.

Comment es-tu devenue Docteure en traitement d’image ?

Au départ, j’étais passionnée par les Telecom. J’ai grandi au Bénin, mon père était souvent en déplacement, et je trouvais vraiment étonnant de pouvoir se parler n’importe où dans le monde. J’avais pour objectif de créer ma propre société de Telecom, et c’est pour cela que j’ai commencé des études en Informatique et Telecom à l’université de Poitiers. Au programme, il y avait aussi des cours de traitement d’image. J’ai trouvé ça incroyable : prendre une image, calculer des descripteurs de forme, et pouvoir ensuite identifier le sujet sur l’image. L’image est aussi un signal, un peu plus compliqué que la voix, donc je me suis dit que j’allais me lancer dans ce domaine, puis revenir plus tard aux Telecom.

J’ai tout de même réalisé mon projet de fin d’études sur un système de bornes communicantes de charge des voitures électriques. Un sujet Telecom pur et dur pourtant j’ai choisi de faire ma thèse sur le traitement d’image, parce que j’avais envie d’approfondir le sujet. Ma thèse portait sur la reconnaissance des émotions sur une image. Pour cela, il fallait faire de l’apprentissage artificiel, et c’est comme ça que j’ai commencé dans le sujet. Et je n’ai jamais arrêté !

Quels sont les cas d’usage du traitement d’image ?

Après ma thèse j’ai travaillé au sein de Vilmorin pour la caractérisation intérieure et extérieure des fruits, légumes et semences. Quand les experts créent une nouvelle variété, on s’assure qu’elle est stable pendant 5 à 7 ans au travers d’un ensemble de caractéristiques. J’ai travaillé sur plusieurs fruits et légumes dont les pastèques, les melons ou encore les courgettes. Par exemple, le melon charentais est très reconnaissable. Il a une brodure, des “lignes longitudinales” plutôt lisses et de  couleur vert foncé, etc. Quand on caractérise ce melon, on vérifie entre autres la broderie, la couleur de la chair et l’épaisseur de la peau.

Pendant mes études, j’imaginais aisément des applications du traitement d’images dans les domaines militaire et médical. Jamais je n’aurais pensé à l’agro avant mon expérience chez Vilmorin. C’est un sujet super intéressant, avec de nombreuses problématiques. J’ai pu travailler au sein d’une équipe internationale avec des interlocuteurs français, américains, israéliens. Selon les pays les attentes et les exigences sont différentes. Le marché américain par exemple n’a pas la même exigence sur l’épaisseur de peau sur une pastèque demandant ainsi de prendre en compte ce point dans les algorithmes. Le fait d’avoir des mesures physiques de référence apporte une complexité supplémentaire.  Nous devons produire des mesures métrologiques, et faire en sorte qu’une mesure de 10cm soit statistiquement cohérente. Cela passe par la mise en place d’un bon système d’acquisition et surtout une étape non négligeable de validation.

Qu’est-ce que ce projet t’a appris ?

C’est très différent du travail en laboratoire de recherche. L’approche métier est très importante. Mes interlocuteurs attendent des informations explicites, explicables. Ils ne s’intéressent pas à la complexité des algorithmes. Je dois leur fournir une interprétation physique qui ait du sens pour leur métier. Cela demande de beaucoup échanger avec eux. La compréhension des enjeux métier, c’est la règle numéro 1 : comprendre pourquoi un critère est important pour le métier.

En thèse, on apprend la communication entre pairs, la rigueur. On apprend moins à prendre en compte les exigences métier et non scientifiques. L’objectif dans le monde industriel est de produire un résultat suite à un cahier de charges qui réponde complètement aux attentes métier, plutôt qu’à une vision de la reconnaissance d’images. Si l’expert métier me dit qu’il attend une couleur en particulier, je dois absolument trouver une solution pour que la couleur que je lui donne soit stable. Cela demande une rigueur dans l’explicabilité, et pas seulement dans l’aspect mathématique de l’algorithme. Pour résumer, j’ai vraiment appris le métier chez Vilmorin, mais j’y ai aussi appris la gestion de projet et la gestion de ressources.

Peux-tu nous donner un autre exemple de traitement d’image par l’IA ?

Après Vilmorin, j’ai rejoint la start-up Jules SAS à Rennes propriétaire du site Authentifier.com. J’y ai occupé le métier de mes rêves à l’époque, responsable de recherche. Authentifier.com propose la détection de contrefaçons sur des articles de luxe de seconde main à partir d’images. La contrefaçon est interdite en France, mais quand on achète un article sur le marché de l’occasion, tout le monde ne peut pas le faire vérifier par un commissaire priseur. Le site propose d’envoyer des photos pour qu’elles soient analysées par des experts, avec l’aide d’algorithmes d’intelligence artificielle. 

Je suis arrivé au début du projet, il y avait tout à faire : mettre en place une équipe, chercher des financements, apprendre à accompagner d’autres personnes tout en faisant mon métier de data scientist. Là aussi, il était essentiel de comprendre les attentes des experts pour mettre en place les bons algorithmes. D’autant plus que le certificat délivré donne les raisons de la non authenticité.  La solution ne peut donc pas être une boîte noire. La décision doit être justifiée : le sac est faux car la signature n’est pas conforme, le modèle n’existe pas. Par exemple, un modèle Birkin avec une toile Louis Vuitton est une contrefaçon flagrante, l’algorithme doit pouvoir le détecter. En cas d’erreur, l’impact juridique peut être énorme. On ne peut pas se permettre de classer un sac authentique comme étant faux.

Il y a donc une lourde responsabilité, qui n’est pas celle de l’algorithme, mais celle des données. Les algorithmes ne font que traduire ce que les données contiennent, nous devons donc nous poser les bonnes questions et ne pas faire des algorithmes de façon innocente et inconsciente. Ce n’est qu’une optimisation, dont on essaie de trouver les paramètres en minimisant les erreurs. Le taux d’erreur n’est jamais nul. On sait que potentiellement l’algorithme peut se tromper. A part sur des données simulées, il n’y a pas d’algorithme qui fasse 100%. On met donc des garde-fous pour faire en sorte de minimiser le risque d’erreur. Pour cette application, on n’avait à l’époque pas trouvé d’autre solution que de garder l’humain dans la boucle. Encore une fois, les choix d’algorithme sont faits en fonction des besoins métier, quitte à ne pas prendre les algorithmes qui sont les plus efficaces. Un algorithme peut être très efficace, mais ne pas être explicable. Or, les experts avec qui nous travaillons doivent savoir comment le système fonctionne. C’est d’autant plus complexe que les points d’authenticité ne sont pas les mêmes en fonction des marques. 

Comment es-tu passée de ce cas d’usage aux séries temporelles dans l’industrie ?

Ce qui me motive quand je choisis les entreprises et les projets sur lesquels je vais travailler, c’est d’être le plus proche possible de la réalité pour ne pas perdre le sens de ce que je fais. Donc j’ai voulu tester autre chose que des images. Traiter des séries temporelles issus de capteurs (ouverture de porte, vitesse d’accélération du moteur) me paraissait adéquat. Je voulais savoir si je pouvais prendre du recul avec l’expérience acquise avec les images, et appliquer les mêmes principes sur un nouveau cas d’usage : la détection d’anomalies et la maintenance prédictive sur des systèmes industriels. C’est comme ça que j’ai rejoint un des leaders mondiaux de l’automatisation de systèmes d’ouvertures.

C’est un nouveau métier, dans lequel j’ai la chance d’avoir des applications tests que je peux toucher. Quand l’entreprise sort un nouveau moteur, on peut tout de suite tester et voir si les solutions envisagées sont réalistes ou pas. L’automatisation, au coeur de la réduction des gaz à effet de serre, est un des objectifs de la société. C’est d’autant plus motivant que l’écologie est au coeur de la stratégie même dans nos habitudes de travail. Pour respecter les différents accords écologiques, d’ici 2030 les gaz à effet de serre des bâtiments doivent être drastiquement réduits. Pour ce faire, en France, les nouveaux bâtiments sont soumis à une nouvelle réglementation : la RE2020. Toutes les entités qui travaillent dans ce secteur doivent réfléchir à la gestion de l’énergie. Une réponse à la problématique peut se trouver dans l’utilisation des données pour modéliser et anticiper un ensemble de phénomènes : l’évolution de la température intérieure en fonction de la météo, la consommation de chauffage/de la climatisation en fonction des prévisions météo, …

Nous devons donc réfléchir à la fois au type de données que l’on peut stocker, et à la façon de les utiliser pour contribuer à réduire le bilan carbone. Il ne faut pas oublier que la consommation énergétique des modèles est toute aussi importante. À titre personnel, je me demande s’il est toujours bien utile d’aller chercher 99,9% de fiabilité ? Ce qui coûte cher en consommation, c’est de relancer plusieurs fois son modèle pendant la phase d’apprentissage. Il est essentiel de se poser les bonnes questions en amont, si on s’assume responsable de ses algorithmes. Par exemple, si je prédis la puissance d’un chauffage sans modèle physique qui me contraint, le modèle peut très bien prédire une puissance impossible à atteindre. Est-ce plus intelligent de mettre une optimisation sous contraire, ou de faire un modèle hybride, plutôt que de chercher à ré entraîner un modèle avec de nombreux paramètres, si on connaît le modèle physique ? 

Certains confrères dans le deep learning parlent maintenant d’utiliser des modèles explicables, et des modèles plus petits. Oui les gros modèles fonctionnent, mais on doit réfléchir à leur usage, être conscient de leur consommation. Mais ceci dit, on n’a pas toujours le choix.

Quels sont tes outils de prédilection ?

Dans un premier temps j’ai beaucoup travaillé en C, avec Caffee, avant l’explosion de TensorFlow, Keras ou encore Pytorch. Aujourd’hui je code uniquement en Python, et j’utilise le plus souvent TensorFlow comme framework ou encore ScikitLearn.

Comment se déroule une journée classique ?

Lors du démarrage de projet, je passe beaucoup de temps à échanger avec l’équipe métier, l’équipe projet et l’équipe de développement. Quand on entre dans la phase de développement, là je plonge dans le code et les algorithmes. Mais globalement, j’ai des journées “classiques” assez simples, avec la journée du vendredi qui est souvent consacrée à la bibliographie. Il peut aussi y avoir des journées consacrées à l’administratif, à la recherche sur la réglementation. Globalement, je passe mon temps à faire du code, à tester, et à discuter avec le métier pour voir comment améliorer les  résultats des tests. 

Le podcast Horizon IA

En plus de mes journées de boulot, il y a le travail sur le podcast avec Stéphanie Lopez. Une soirée par semaine, je prépare la newsletter. Avant l’enregistrement d’un épisode, nous faisons des pré-entretiens pour préparer le sujet. Les enregistrements se font en semaine ou le week-end en fonction des disponibilités des intervenants et  le montage le weekend. Nous avons lancé ce projet avec Stéphanie pour faire avancer la médiation scientifique : vulgariser l’IA, faire découvrir ses applications pratiques, mettre en lumière les contraintes métier, etc.  C’est important de mettre en avant des projets qui parlent à tout le monde, dont on puisse comprendre immédiatement l’apport. Les voitures autonomes, ça ne parle pas à tout le monde. On essaie aussi de faire comprendre que l’IA n’a rien de magique, et que parfois ça ne fonctionne pas.


L’épisode 25 du Podcast Horizon IA consacré à l’IA dans la recherche pharmaceutique :


Je pense qu’en tant que Data Scientist, on a une responsabilité sur les projets que l’on choisit. Il y a de nombreuses applications autour du comportement utilisateur, mais ça ne m’intéresse pas de travailler pour suivre les clics des internautes. C’est pourtant un secteur qui recrute beaucoup, et qui fait parler. En comparaison, faire de l’IA sur des moteurs de portail, ça ne passionne pas les foules, mais je trouve ça super intéressant. On peut aussi parler des chatbots : un chatbot dans l’industrie, c’est un cas d’usage intéressant, contrairement aux chatbots de grande consommation. Carole Lailler (voir son interview ici) en parle très bien d’ailleurs, quand elle évoque Siri comme étant le “post-it de la voix”.

Nous avons donc une part à jouer, pour rendre le métier plus accessible et faire comprendre ce que l’on fait. Est-ce que l’IA est éthique ? Ecologique ? Elle peut l’être, ou au contraire pas du tout, d’où l’intérêt d’avoir des débats francs. Et également de répondre aux inquiétudes légitimes sur les algorithmes. Par exemple, Nicolas Turpault travaille sur l’aide au maintien à domicile basée sur l’analyse des sons, et contrairement à ce qu’on pourrait penser, c’est un projet d’IA respectueux de la vie privée. L’algorithme n’a pas besoin de comprendre ce qui se dit pour analyser les sons. C’est pour cela que nous essayons avec ce podcast de casser les biais de représentation et d’interprétation, y compris les nôtres.

Le mot de la fin ?

J’aimerais parler d’un projet qui me tient à cœur et que je soutiens. L’école d’été sur l’intelligence artificielle (EEIA 2022), organisée par la Fondation Vallet, donne l’opportunité à des jeunes du Bénin de se former à l’IA et aux algorithmes.

Ce programme gratuit propose des cours de Python, de Machine Learning, et des aides pour les projets. C’est une belle initiative qui contribue à réduire le fossé numérique entre Nord et Sud, et à rétablir une égalité des chances. Ce type de projet permet aussi de rendre le métier moins élitiste.

Commentaires :

A lire également sur le sujet :