Google Next : du Cloud au Big Data
Peut-on encore parler de Big Data ? Aujourd’hui la donnée est partout, elle est incontournable, et les volumes explosent : comme l’annonce Carl Schachter, VP Google Cloud Platform « Data is everything ». A l’occasion de son événement Next à la Cité de la Mode (Paris), Google a résolument positionné sa plateforme Google Cloud sur le Big Data.
Développeurs, startups, indépendants, entreprises petites ou grandes : aujourd’hui, nous sommes tous concernés par le Cloud. Dans sa keynote d’ouverture, Carl Schachter souligne la place grandissante de la technologie dans la société, et plus particulièrement dans les entreprises. Cela va de pair avec l’importance croissante des développeurs qui sont derrière les applications régissant notre vie et nos méthodes de travail.
Pour illustrer ce changement, Carl Schachter revient sur cinq années d’évolution technologique, qui ont vu l’essor des tablettes, des drones, des voitures électriques et des assistants personnels à reconnaissance vocale. La large démocratisation des smartphones, couplée à l’expansion des capacités réseau, nous a non seulement fourni de nouvelles façons de nous distraire et de travailler, mais également créé de formidables opportunités marketing. Et pour en tirer parti, il faut proposer la meilleure expérience client qui soit, en termes de richesse et de profondeur : c’est maintenant le software qui fait la différence, pas le hardware.
Après avoir cartographié et organisé le savoir humain, Google se propose de mettre son expérience et son architecture au service des développeurs, pour créer de meilleures applications, plus rapidement. Si chacun se fera son idée quant à ce discours, lors de cette keynote Google a également mis en avant de nouveaux produits venant enrichir son offre Big Data :
- Cloud Datalab : cet outil pour les développeurs basé sur IPython Notebook permet de combiner Big Query et Cloud Storage avec Hadoop et Spark, afin d’explorer et visualiser les données.
- Cloud Shell : permet aux développeurs d’utiliser des commandes en ligne pour déployer ses applications ou gérer ses ressources, ou qu’il soit et depuis n’importe quel poste. Il est ainsi possible de gérer tous ses développements en mode cloud, sans installation en local : la démo a été effectuée sur un Chromebook.
- Cloud DataProc : un service managé pour lancer rapidement des clusters Spark et Hadoop.
Big Data : Focus sur les données
Animée par Philippe Poutonnet, product marketing manager, la session dédiée au Big Data commence par un rappel de la philosophie derrière la suite Google Big Data : « Focus on insight, not infrastructure« . Intégrer deux projets open source pour les coupler à Hadoop, c’est à la fois long et compliqué, et pendant ce temps-là, vous n’analysez pas vos données. L’objectif de Google est donc de fournir des outils à ses clients pour passer directement à l’analyse, sans avoir à traiter les questions d’infrastructure.
Un peu de contexte : d’après une étude Gartner, seulement 13% des entreprises dans le monde font de l’analyse de données Big Data. La majorité des entreprises est encore en phase d’approche sur le sujet. Le Big Data est pourtant présenté comme une opportunité à ne pas laisser passer : la quantité de données produites doublant tous les ans, les entreprises doivent pouvoir conserver et analyser ces données pour rester compétitives. Et la nature des données s’enrichit : aujourd’hui des données textes, des vidéos, des images, demain un afflux massif de données issues de l’IoT, qui vont ajouter une nouvelle couche de complexité. Une bonne nouvelle cependant, d’ici 2020 40% de ces données seront nativement dans le Cloud.
Philippe Poutonnet souligne néanmoins la complexité de la construction d’un modèle Big Data, qui n’est qu’une étape. Il faut également pouvoir capturer, structurer la donnée, et enfin créer de la valeur avec ces données. Pour ce faire, il faut pouvoir impliquer chacun dans l’entreprise : tout le monde doit pouvoir exploiter facilement la donnée pour ne manquer aucune opportunité. Enfin, il insiste sur l’importance de la rapidité des cycles d’innovation et d’itération : monter un projet Big Data impliquant beaucoup d’échecs successifs, il faut pouvoir tester rapidement, échouer rapidement pour espérer réussir rapidement à terme. Ces enjeux, Google a commencé a y répondre il y a plus d’une dizaine d’années : en effet, il est difficile de contester l’ampleur des chiffres cités en exemple. Google gère 3,3 milliards de recherches par jour, stocke 300 heures de vidéo chaque minute, active 1,5 millions de systèmes Android par jour.
La suite de produits Google autour du Big Data repose sur trois principes :
- Fully managed : connaître SQL suffit pour obtenir des résultats, pas besoin d’avoir à disposition une équipe d’ingénieurs.
- Rapidité d’itération : toutes les opérations se comptent en secondes et non en heures, afin de trouver rapidement ce que l’on veut. Big Query peut ainsi traiter 100 milliards de lignes en 3 secondes.
- Proposer des coûts bas grâce aux économies d’échelle.
Deux cas clients sont mis en avant :
- SunGard, dont le besoin était de stocker 6 années de données (30 peta) et d’uploader toutes les 4h 100 milliards de lignes de marché, afin de pouvoir requêter toutes ces données de façon automatique, a choisi la solution Cloud Big Table.
- DeNA, dont la problématique se posait plus en termes de vitesse que de volume. Leur besoin était de pouvoir remonter des logs très rapidement dans une base de données, afin de les exploiter et créer des rapports : DeNA est ainsi passé de Hadoop à Big Query.
Le cycle de vie du Big Data
La suite de produits proposée par Google permet de répondre à chaque besoin du cycle de vie du Big Data : les données doivent être capturées en amont (site, point de vente, application, etc.), préparées (c’est-à-dire nettoyées) avant d’être stockées et analysées.
- Capture des données : AppEngine et Analytics Premium (pour ceux qui sont déjà chez Google) ; Cloud Pub/Sub pour pousser les données, ou Big Query pour les récupérer en stream ou en batch.
- Préparation des données : Cloud Data Flow (stream, batch).
- Stockage : Big Query, Cloud Big Table (beta), Cloud Datastore.
- Analyse de données : Cloud DataProc (beta), Big Query.
Philippe Poutonnet conclut en rappelant l’objectif de simplicité de la suite Big Data : créer de la valeur avec les données, à travers des solutions accessibles via un navigateur.