Data Unlimited : comment libérer la matière première de l’Open Data?
Open Data, Big Data, API…pour faire le point sur tous ces concepts, Google et D2SI Icelab ont organisé le 17 septembre dernier la soirée Data Unlimited, une scène ouverte autour des usages et applications de la Data. Chloé Bonnet, co-fondatrice de Five by Five, agence d’innovation et ambassade de l’Open Data Institute à Paris, y a présenté les obstacles à l’ouverture des données les plus souvent rencontrés.
L’open data est une matière première, une ressource dont il faut débloquer l’accès : l’enjeu est aujourd’hui de faire en sorte que les entreprises privées et les administrations ouvrent l’accès à leurs données. Mais les freins sont nombreux, et Chloé Bonnet cite justement les cinq clichés les plus courants liés à l’open data, ou les raisons les plus fréquemment mises en avant pour ne pas ouvrir l’accès aux données. Analyser et adresser ces points de blocage est une étape pour passer à la “seconde génération” de l’Open Data.
Cliché n°1 de l’Open Data : « Nos données sont déjà ouvertes »
Beaucoup d’entreprises imaginent que publier des rapports d’activité, mettre des informations à disposition en ligne suffit. Rappelons que dans sa définition, l’Open Data doit répondre à trois impératifs :
- technique, la donnée doit être structurée dans un format réutilisable par qui que soit, y compris des machines
- juridique, la donnée doit être diffusée sous licence ouverte
- économique, le coût de la donnée ne doit pas entraver son usage
Autrement dit, son libre accès par tous est garanti, sans restriction technique, juridique ou économique. Dans ces conditions seulement, on peut parler d’Open Data.
Cliché 2 de l’Open Data : « Nos données ne sont pas de bonne qualité, pas disponibles, ou n’existent pas »
Ne pas disposer de données n’est pas toujours un frein, et Chloé Bonnet prend l’exemple d’un projet mené avec la SNCF, visant à améliorer l’accessibilité dans les gares pour les personnes à mobilité réduite. Avec très peu de données au départ, la problématique était de trouver comment rassembler rapidement des données terrains comme la géolocalisation des ascenseurs, ou des nombreux obstacles présents dans chaque gare. Dans un premier temps, la communauté OpenData, et notamment OpenStreetMap, a été mobilisée pour contribuer au projet. Mais devant l’ampleur des données à cartographier, des junior entreprises ont été formées afin pouvoir également contribuer. Aujourd’hui les données recueillies sont consultables et exploitables.
Cliché n°3 de l’Open Data: « Nos données sont sensibles »
Pour des raisons de sécurité ou de réputation, les entreprises ne sont pas toujours prêtes à donner l’accès à leurs données, et donc à exposer leurs pratiques…bonnes ou mauvaises. Tesco a ainsi attendu le scandale de la viande de cheval pour promettre la transparence sur sa chaîne d’approvisionnement : c’est une façon de mettre l’organisation sous pression et pousser à de meilleures pratiques. Nike a bien compris que c’était une façon de préserver son image et sa réputation. Nike a ainsi créé une base donnée exposant l’ensemble de sa chaîne d’approvisionnement (matériaux, usines, conditions de fabrication, etc.), et mis à disposition une API.
Cliché n°4 de l’Open Data : « Quel retour sur investissement? »
Il est difficile de réellement évaluer le retour sur investissement d’un sujet aussi émergent que l’Open Data, dont les retombées sont plutôt indirectes. Dans un modèle orienté client où les données sont mises à disposition et l’offre exposée à travers des applications tiers, le retour sur investissement se fait à travers la captation de nouveaux clients ou la fidélisation. C’est le cas pour JC Decaux dont les données Velib sont accessibles en Open Data. Ouvrir les données autorise également la correction collaborative, et donc l’amélioration des données (en plus de la captation de nouvelles données). Enfin, à plus long terme, l’exploitation de l’Open Data peut aider à réformer l’organisation en profondeur, à trouver de nouveaux potentiels de réduction des coûts. L’exploitation d’un jeu de données sur un médicament anticholestérol (issues de la Sécurité Sociale en Angleterre), a ainsi révélé que 200 millions de livres pourraient être économisées chaque année si les génériques étaient systématiquement prescrits.
L’Open Data fonctionne encore sur un modèle émergent, dessiné par des acteurs indépendants plutôt que par les grandes sociétés. Trois grands types d’acteurs évoluent sur ce marché : les producteurs de données, ceux qui les utilisent pour leurs applications, et entre les deux, les agrégateurs, qui facilitent la réutilisation de la données et fournissent des garanties de services. Les modèles économiques autour de l’Open Data restent encore à trouver, mais globalement le secteur a encore besoin d’investissements plus massifs pour décoller.
Cliché n°5 de l’Open Data : « Nous exploitons nos données en interne »
Si de nombreuses sociétés préfèrent réserver à leur R&D et à leurs services propriétaires l’usage de leur données, l’ouverture à l’extérieur peut signifier non seulement un accroissement des volumes traités, mais aussi de la qualité. Chloé Bonnet cite ainsi l’exemple du projet collaboratif Galaxy Zoo, qui permet à chaque internaute de participer à la classification de galaxies. Lors du lancement du projet, près de 70 000 classifications par heure ont été reçues. 150 000 contributeurs ont été enregistrés la première année, totalisant plus de 50 millions de classifications. On comprend évidemment l’intérêt en termes de volume de données traitées, mais le plus étonnant dans cette histoire est que la qualité des classifications reçues est aussi bonne, si ce n’est meilleure, que celle des classifications effectuées par les professionnels du sujet. Alors, êtes-vous prêts à ouvrir vos données ?