Infrastructure : quelles méthodes pour s’adapter aux nouvelles architectures Cloud ?
Le Cloud a profondément modifié le paysage de l’IT. En rendant l’infrastructure programmable et en automatisant chaque élément, il a complètement bouleversé la manière d’appréhender et d’utiliser les ressources informatiques.
Hier, la ressource était chère, mais sa disponibilité assurée par de nombreuses mesures. Aujourd’hui, il est possible d’accéder à des ressources en quantité quasiment illimitée et à faible coût, mais avec moins de garantie de disponibilité.
Concrètement, il n’y a pas de garantie sur le fonctionnement unitaire d’une machine. Une VM peut tomber n’importe quand. La seule garantie est de pouvoir en obtenir une nouvelle en quelques minutes. C’est cette possibilité de remplacement très rapide qui change radicalement la manière d’envisager la résilience et la performance du service. Si l’infrastructure ne garantit plus la résilience, alors la couche applicative doit être repensée pour le faire.
Dès sa conception, l’application doit être pensée horizontalement et déployée sur plusieurs machines qui coopèrent pour rendre le service. Idem pour les données qui doivent suivre le même chemin et être intégrées dans des clusters. Pour les développeurs, cela implique de découvrir de nouveaux frameworks et d’acquérir de nouveaux réflexes. Concevoir une application résiliente sur une infrastructure qui ne l’est pas, c’est apprendre à se méfier de tout, tout le temps.
Bien que la disponibilité ne soit pas garantie, force est de constater que les VMs dans le Cloud ne tombent pas si souvent que ça. Cependant, pour s’assurer que la résilience soit correctement intégrée et testée dans les couches applicatives, Netflix a décidé d’aller plus loin en organisant de façon industrielle les pannes de VM. Yuri Izrailevsky (Directeur Infrastructure) et Ariel Tseiltlin (Directeur Cloud) ont ainsi mis en place la Netflix Simian Army. Dans cette armée, on trouve par exemple le Chaos Monkey, une application qui tue aléatoirement les machines de production et vérifie que le service n’est pas perturbé. Tout en haut de la pyramide hiérarchique de la Simian Army, on trouve le Chaos Gorilla, qui fait tomber une zone complète de disponibilité Amazon.
“Tester constamment notre résilience à tous types d’incidents nous permet d’être plus confiants quant à notre capacité à gérer les inévitables incidents qui peuvent arriver en production, et minimiser voire éliminer leur impact sur nos abonnés”.
En d’autres termes, en mettant à l’épreuve la couche infrastructure, Netflix s’assure de la résilience de la couche applicative.
Et vous, êtes-vous prêts à tuer vos machines de production ?
Cet article, réalisé en collaboration avec Clément Cunin, est issu de l’ouvrage collectif “Les nouveaux métiers de l’IT” publié par D2SI Icelab. L’objectif de cette réflexion est de décoder les changements en cours dans l’IT et les impacts concrets sur les métiers : quels métiers risquent de disparaître, quels sont ceux qui seront bouleversés, et surtout quels sont les nouveaux métiers apparus récemment ?
Au-delà de ces questions, “Les nouveaux métiers de l’IT” a pour objectif de fournir des pistes de réflexion et des réponses opérationnelles pour accompagner les équipes dans cette mutation qui touchent toutes les DSI. Vous y trouverez les réflexions de nos experts ainsi que les avis de grands noms de l’IT comme Docker, Amazon Web Services, HP ou encore Hashicorp. Pour recevoir cet ouvrage :