Après American Airlines qui a vu nombre de ses vols perturbés suite au dysfonctionnement d’une application iPad en avril, puis une panne de routeur chez Southwest Airlines il y a 3 semaines, c’est au tour de Delta Airlines de voir ses opérations largement perturbées par un incident informatique. Plus de 450 vols ont dû être annulés pendant près de 6 heures en raison d’une panne informatique majeure le 8 août.
Arrêt d’alimentation électrique comme l’affirme la compagnie aérienne ou panne d’un switch gear comme l’a précisé le fournisseur d’électricité géorgien de Delta Airlines, le fait est qu’aucun plan de secours, ni chez l’un, ni chez l’autre, n’a pu assurer la continuité de service informatique suffisamment rapidement.
Pour rappel, disposer d’un plan de continuité d’activité, et au minimum, d’un plan de relève informatique est un prérequis de base dans les grandes entreprises au point que c’est une exigence obligatoire dans de nombreux secteurs (bancaire, énergie, secteur public, jeux et loterie…). La IATA (l’association de transport aérien internationale) dispose également de recommandations pour la mise en place d’un système de gestion de la sécurité (« SeMS Security Management systems », dans le jargon IATA) et donc de la continuité.
Enfin, lorsque ce plan de continuité existe, il est important de le tester régulièrement, pour anticiper les problèmes dus aux changements de configuration.
Au final, la démarche pour mettre au point son plan de continuité d’activité est la suivante :
Initialisation du système de gestion de la continuité de service et définition de la politique de continuité
Analyse des impacts d’affaires, définition des temps et durées de reprise acceptables, identification des activités critiques de l’entreprise et des composants informatiques indispensables à leur bon fonctionnement.
Identification et sélection des stratégies de continuité comme la redondance des équipements nécessaires aux services critiques de l’entreprise
Organisation de la réponse au sinistre ou à l’incident majeur
Définition des plans de continuité d’activité et du plan de reprise informatique
Test et maintenance du plan.
Avant de parler du plan de secours, un système de gestion efficace des incidents devrait en amont identifier, qualifier, catégoriser et traiter l’incident. Lorsqu’il n’est pas possible d’y remédier immédiatement, la sévérité doit permettre de définir quand la solution de secours doit être activée. Enfin, ce même système de gestion des incidents doit prévoir une analyse post-incident, pour éviter que le problème se reproduise.
Articles sources :
http://ici.radio-canada.ca/nouvelles/actualite/2016/08/08/001-delta-panne-retard-vol-transport.shtml