Dans ta science : le traitement des sons ambiants pour détecter les signes de perte d’autonomie
A la croisée de plusieurs disciplines, la Data Science s’appuie sur des méthodes et des algorithmes pour tirer des informations et de la connaissances à partir de données structurées et non structurées. Encore inconnus il y a quelques années, les métiers de la Data Science et du Machine Learning évoluent très vite. Compétences, méthodes, outils… dans cette série d’entretiens, nous confrontons notre expérience à celle du marché, avec la participation de Data Scientists et spécialistes de l’IA externes à Devoteam Revolve.
Nous recevons aujourd’hui Nicolas Turpault, dont le projet Sonaide vise à préserver le bien-être des personnes âgées à domicile, par la détection des premiers signaux de la perte d’autonomie.
À 27 ans, Nicolas Turpault est diplômé de l’école Polytech Nice. Initialement engagé dans ce cursus pour travailler dans l’actuariat, Nicolas est tombé amoureux du Machine Learning en 4ème année. Après plusieurs stages et projets, il a choisi pour sa thèse de doctorat un sujet appliqué, sur l’IA dans la reconnaissance des sons ambiants. Nicolas a lancé après sa thèse le projet Sonaide, destiné à prévenir la perte d’autonomie chez les personnes âgées.
Pourquoi as-tu choisi le traitement des sons ambiants ?
Je n’avais pas envie de faire du traitement d’image, sujet à la mode et sur lequel il y a déjà beaucoup d’acteurs et une communauté où je ne me retrouve pas. J’ai envie de concret, et travailler sur le son ambiant me paraissait une bonne façon de le faire. J’avais déjà fait un stage sur la reconnaissance d’émotion dans la voix, et par ailleurs j’adore le son ! Je suis plus “sonore” que “visuel”, dans un film je suis beaucoup plus sensible à la musique qu’aux images.
J’ai rejoint la communauté Detection and Classification of Acoustic Scenes and Events, une petite communauté à taille humaine. Plutôt que de faire de l’IA pour de l’IA et des modèles théoriques sans application, on réfléchit à ce qu’on fait, ce vers quoi on veut aller. Et cela me convient bien, je ne voulais pas faire de la recherche pure, j’ai besoin de voir la finalité de ce pour quoi je travaille.
Comment on passe de la finance à un projet à vocation sociétale ?
La finance était un choix par défaut. Je cherchais une orientation professionnelle, j’ai ciblé plusieurs critères en fonction de ce que j’aimais et ce pour quoi j’étais bon, et l’actuariat cochait beaucoup de cases de ma liste. Je me suis vite rendu compte que ce n’était pas pour moi, j’ai détesté le monde de la finance, mais j’ai aussi découvert le Machine Learning et ça a été comme une révélation. Les possibilités d’application, les méthodes de travail…
Tout cela m’a attiré, j’y ai vu l’opportunité de faire quelque chose d’utile pour les gens. En 4ème année par exemple, j’ai travaillé sur un projet sur les données électromyographiques pour comprendre les mouvements et à terme aider les pompiers en situation d’urgence. Ce sont des applications très concrètes et sociétales.
Quels sont les cas d’usage du traitement du son ambiant ?
Tout d’abord, la mesure de la pollution sonore urbaine : elle est le plus souvent mesurée au niveau sonore, en décibels, pourtant une voiture ou un oiseau à 80 décibels n’ont pas du tout le même impact perçu. L’analyse des bruits d’une rue par le traitement du son ambiant permet de dégager des pistes d’amélioration, peut-être même de changer la culture urbaine, mais là on se heurte souvent à des freins politiques.
Il y aussi la maintenance prédictive. De la même manière qu’un garagiste peut identifier une panne à l’oreille, on peut amener cette expertise de façon automatisée dans la voiture, avant d’identifier les problèmes au plus tôt et d’éviter les pannes. De la même façon, dans des entrepôts de machines, qui sont souvent automatisées, on peut détecter des anomalies grâce au son. Dans un tout autre registre, le traitement du son peut contribuer à l’étude de la biodiversité, par exemple en comptant le nombre d’oiseaux, en localisant des cétacés, etc.
J’ai choisi de faire ma thèse sur les cas d’usage domestique. On parle souvent de maison intelligente, mais il y a beaucoup de gadgets, je voulais donc développer quelque chose qui puisse aider les gens, notamment dans les cas de handicap. Finalement, j’ai choisi de travailler sur la question de la perte d’autonomie, c’est un sujet qui me touche beaucoup personnellement et d’actualité pour mes grands parents.
En quoi consiste le projet Sonaide ?
Il s’agit de la reconnaissance des signaux faibles de la perte d’autonomie des personnes âgées dans leurs activités quotidiennes. Les habitudes changent petit à petit, parfois cela peut aller vite, parfois moins de 6 mois suffisent pour que l’entourage constate une dégradation de l’autonomie. Pourtant, il existe de nombreux signaux faibles qui permettent d’identifier plus rapidement une possible dégradation. Par exemple, le fait de manger plus tard que d’habitude, ou de manquer un repas, par oubli, par manque d’envie ou par fatigue. On peut trouver des solutions facilement à ces problèmes, mais il faut les identifier à temps. La majeure partie des personnes âgées préfèrent rester à domicile le plus longtemps possible, mais c’est compliqué de le faire si on ne fait pas de prévention. Nous faisons un outil de prévention pour leur permettre de rester chez elles.
Quels types de sons cherche-t-on ?
On pense assez souvent à la chute, mais c’est un sujet que nous avons laissé de côté. Il existe déjà un certain nombre d’applications ou d’appareils pour détecter la chute, mais les résultats ne sont pas toujours concluants, il y a beaucoup de faux positifs, mais aussi des vraies chutes qui ne sont pas détectées. Au niveau sonore, c’est par ailleurs assez difficile à détecter, une chute ne fait pas toujours beaucoup de bruit, on sait donc que le taux de détection ne sera pas élevé. Les données d’entraînement posent également problème : comment récupérer des données de chute ? On ne va pas aller pousser les personnes âgées pour les faire tomber.
Nous nous sommes donc concentrés sur 5 types de signaux faibles de la perte d’autonomie :
- le manque d’hygiène,
- la dénutrition,
- l’isolement,
- les troubles du sommeil,
- le manque de mouvement.
Dans chacun de ces cas, on peut identifier des sons, ou leur absence. Par exemple, le fait de ne plus se laver est un indicateur fréquent d’une dégradation, donc on va essayer d’identifier la fréquence des douches. Pour la nutrition, on détecte les bruits de couverts, de plats, le four à micro-ondes, le mixeur. Identifier les troubles du sommeil est également assez simple, le son ambiant nous permet de savoir si la personne se lève la nuit, combien de fois, et d’estimer le nombre d’heures de sommeil.
Pour le mouvement et l’isolement, c’est un peu plus difficile. On peut détecter s’il y a de la visite, si les gens parlent -sans pour autant devoir comprendre ce qui est dit, car la solution est très respectueuse de la vie privée- mais détecter le manque de mouvement est encore assez complexe.
Comment entraînez-vous les modèles pour ce projet ?
C’est une partie super intéressante du projet. Je suis très attaché à la protection de la vie privée, nous essayons donc au maximum d’utiliser des données Open source (FreeSound, Youtube creative commons), mais la plupart du temps ces données ne sont pas assez réalistes. Je récupère aussi des données chez moi, ou je demande à des amis de s’enregistrer pendant qu’ils prennent leur douche, il n’y a pas de données personnelles associées. En ce moment nous menons une expérimentation avec un petit groupe de 7 personnes âgées, nous avons récupéré 3 jours de données chez eux, toutes les données de voix sont supprimées, et le reste des données est utilisé non pas pour l’entraînement, mais pour tester l’algorithme.
Et côté hardware ? Comment fonctionne le boîtier ?
Le boîtier fonctionne avec un Raspberry Pi de 2Go, sur lequel le modèle tourne en temps “semi-réel”, dans le sens où on n’est jamais mis en retard par le traitement. On a beaucoup de marge dans le traitement par rapport à d’autres cas d’usage qui demandent une reconnaissance à 99%, et très rapide.
A terme, l’objectif est de réaliser tous les traitements dans le boîtier. Actuellement, nous collectons les données du boîtier pour tester son bon fonctionnement, mais à terme le boîtier enverra uniquement du texte, aucun audio, tout le reste sera fait en local. Fort heureusement, nous sommes sur des modèles assez peu volumineux comparé au traitement d’image ou de voix, et peu de données d’entraînement suffisent. Une centaine d’exemples d’une classe, de 10 secondes environ, suffit pour reconnaître la classe.
A titre d’exemple, la communauté Dcase organise un challenge international de reconnaissance de son ambiant, on est sur 8 heures d’entraînements sur un GPU. En termes de données, nous avons 20 000 exemples, pas tous annotés, dont moins de 1500 sont annotés. Ce sont des modèles assez raisonnables par rapport aux autres modèles d’IA.
Quelles sont les prochaines étapes ?
Cette expérimentation sur l’hygiène vise à valider qu’il y a un vrai besoin. Nous échangeons avec des aides à domicile, des télé-opérateurs spécialisés dans l’assistance, ou des résidences senior pour voir à qui cela bénéficierait, comment et pourquoi.
Nous cherchons aussi des partenaires pour avancer avec nous sur la partie technique et identifier le marché. L’objectif serait de faire une levée de fond en fin d’année, et de pouvoir déployer les premiers boîtiers l’année prochaine.
Le mot de la fin ?
Le projet se construit petit à petit. J’ai pu bénéficier de l’accompagnement de l’INRIA pour le lancer, et depuis avril dernier j’ai un nouveau collègue qui est spécialisé dans le Deep Learning. Nous sommes très motivés pour avoir un impact positif, tout en respectant la vie privée des gens. Une IA éthique, respectueuse de la vie privée, cela apporte plus de contraintes dans le développement, mais c’est tout à fait possible. On peut bien faire les choses, je pense qu’il faut juste réfléchir à ce qu’on veut de l’IA en tant que société.