ICTjournal 06/2021

  • Wwwnetzmediench
  • Selon
  • Collaborateurs
  • Ainsi
  • Netzmedien
  • Suisse
  • Entreprises
  • Projet
  • Processus
  • Hybride
  • Travail

22 résilience centre de

22 résilience centre de données Datacenters: des pannes coûteuses et évitables Deux tiers des entreprises ont été affectées par des pannes de centre de données ces trois dernières années, selon l’enquête de l’Uptime Institute. Des pannes coûteuses impliquant souvent une erreur humaine et des composants électriques. Rodolphe Koller Les entreprises sont moins affectées par des pannes de datacenters, mais ces pannes sont de plus en plus coûteuses, selon l’enquête annuelle référence de l’Uptime Institute, conduite auprès de 800 responsables dans le monde. 69% des organisations indiquent en avoir subi ces dernières années contre 78% en 2020. Dans un peu moins de la moitié des cas, les pannes ont eu un impact important. Selon les auteurs de l’étude, cette amélioration reflète aussi le fait que l’activité et les mises à jour ont été réduites en raison de la pandémie. L’impact économique de ces pannes ne cesse en revanche de grandir. Dans 62% des cas, l’incident a coûté plus de 100 000 dollars à l’entreprise depuis la panne jusqu’à la reprise complète, en intégrant les coûts directs, mais aussi d’opportunité et de réputation. En 2019, seuls 39% des incidents généraient de tels coûts. Pour les auteurs de l’étude, la tendance devrait encore se renforcer avec la dépendance croissante envers les services numériques, des SLAs de plus en plus stricts et des amendes réglementaires plus nombreuses. Problèmes électriques et erreur humaine A l’origine technique des pannes, on retrouve des problèmes d’électricité dans 43% des cas. Les soucis les plus fréquents concernent en particulier les UPS, les commutateurs de transfert et les générateurs. Le réseau, le refroidissement et les erreurs de systèmes sont les autres causes de panne significatives. «La prévalence continue des pannes liées à l’électricité montre que la préoccupation de l’industrie à l’égard des systèmes et A l’origine technique des pannes, on retrouve des problèmes d’électricité dans 43% des cas. de la distribution électriques est légitime, tout comme cela justifie l’investissement élevé», commentent les auteurs. Trois quarts des responsables jugent par ailleurs que les pannes les plus importantes qu’ils ont subies auraient pu être évitées si la gestion, les processus ou la configuration avaient été meilleurs. Quatre sondés sur cinq pointent des défaillances liées à l’humain. «Ces résultats mettent en évidence une opportunité claire. Si l’on investissait davantage dans la gestion, les processus et la formation, la fréquence des pannes diminuerait presque certainement – de manière significative», avancent les auteurs du rapport. Source: Uptime Institute Global Data Center Survey 2021 (N=645) IMPACT DES PANNES DE DATACENTERS Comment classifieriez-vous la panne la plus notable dont ait souffert votre organisation ces 3 dernières années, sur son site ou celui d’un fournisseur? (en %) aucune panne négligeable minime significative sérieuse sévère 17 8 18 5 21 31 CAUSES DES PANNES HUMAINES Ces 3 dernières années, votre organisation a-t-elle subi une panne de datacenter impliquant une erreur humaine? Si oui, de quel type? Exécution par les équipes du datacenter (par ex. procédure pas respectée) Processus/procédures des équipes incorrectes Problème de service (par ex. maintenance inadéquate) Lacunes ou problèmes de design du datacenter Problèmes avec la fréquence de la maintenance préventive Manque de personnel Aucun 15 14 17 21 27 32 38 Source: Uptime Institute Global Data Center Survey 2021 (N=179) 06 / 2021 www.ictjournal.ch © netzmedien ag

ésilience ingénierie du chaos 23 De l’utilité d’injecter du chaos dans les systèmes IT Pratique consistant à éprouver des environnements IT en créant des événements perturbateurs, l’ingénierie du chaos est aujourd’hui expérimentée par une majorité d’entreprises. Quels sont les bénéfices de ces tests et les obstacles à leur adoption. Yannick Chavanne Popularisée par Netflix et ses Chaos Monkeys, l’ingénierie du chaos (Chaos Engineering) s’impose toujours plus dans les entreprises. Alors que les outils de Netflix pour mettre délibérément hors service des instances AWS sont disponibles en open source, Amazon a sorti il y a peu Fault Injection Simulator, sa propre solution consistant à éprouver des environnements cloud de test ou de production en créant des événements perturbateurs. Editeur d’une plateforme de Chaos Engineering, Gremlin a récemment publié une étude indiquant qu’aujourd’hui, près de deux tiers des entreprises ont expérimenté cette pratique au moins une fois. Se basant sur ses données et une enquête auprès de plus de 400 spécialistes IT, l’éditeur constate que l’ingénierie du chaos est moins utilisée dans les petites structures. Mais au-delà des 100 employés, son taux d’adoption ne dépend pas de la taille de l’entreprise. Les équipes adeptes et les méthodes privilégiées Tester la résilience des systèmes IT et des workloads est avant tout une procédure utilisée par les équipes responsables de l’ingénierie de la fiabilité des sites (SRE, Site Reliability Engineering), de même que par les développeurs et les équipes en charge des opérations. La pratique est en outre plus fréquente au sein d’environnements de test et de développement. Créer délibérément une défaillance de l’hôte s’avère beaucoup moins populaire que simuler des attaques ciblant le réseau et les ressources. Les principaux obstacles et bénéfices L’augmentation de la disponibilité des applications ressort comme le principal bénéfice observé par les entreprises adeptes de l’ingénierie du chaos. «L’exécution d’expériences de chaos permet d’identifier les couplages étroits ou les dépendances inconnues qui ont un impact négatif sur nos applications et suppriment souvent une grande partie des avantages de la création d’applications en microservices», ajoutent les auteurs de l’étude. Le manque de sensibilisation et d’expérience sont les principaux obstacles à l’adoption de l’ingénierie du chaos. Certaines entreprises se montrent frileuses face à cette approche car elles craignent de voir quelque chose mal tourner. «Mais en utilisant des méthodes modernes qui suivent des principes scientifiques, et en isolant méthodiquement les expériences à un seul service, nous pouvons [...] ne pas perturber les expériences des clients», rassurent les spécialistes de Gremlin. L’augmentation de la disponibilité des applications ressort comme le principal bénéfice observé par les entreprises adeptes de l’ingénierie du chaos. LES MÉTHODES LES BÉNÉFICES Attaques délibérées par type (en %) Attaques délibérées par cible (en %) Réseau Ressource Hôte Container Application Etat Application 38 15 1 46 29 1 70 Après avoir utilisé une pratique de Chaos Engineering, quels bénéfices avez-vous constaté? (en %) 50 45 40 35 30 25 20 15 10 5 0 47 45 41 38 37 25 Augmentation de la disponibilité Diminution de la durée moyenne de résolution d’une perturbation Diminution de la durée moyenne de détection d’une défaillance Moins de bugs envoyés en production Réduction du nombre de pannes Réduction du nombre de pages Source: Gremlin, 2021 www.ictjournal.ch © netzmedien ag 06 / 2021