Aller au contenu

Fondamentaux de la gestion d'incidents

Comprendre ce qu'est un incident, comment le classifier et comment suivre son cycle de vie.


Qu'est-ce qu'un incident

Un incident est tout événement non planifie qui provoque une dégradation ou une interruption d'un service en production, affectant directement les utilisateurs ou la capacité opérationnelle de l'organisation.

La notion clé est l'impact mesurable : une alerte sans conséquence visible n'est pas un incident au sens ITSM du terme.

Incident, problème et événement

Concept Définition Exemple
Événement Changement d'état détecté dans le système Alerte CPU > 80 %
Incident Interruption ou dégradation de service non planifiee API en erreur 500 pour 30 % des requêtes
Problème Cause racine sous-jacente d'un ou plusieurs incidents Fuite mémoire dans le service de paiement

Un incident peut être clos une fois le service restaure, même si la cause racine n'est pas encore identifiée. Le problème persiste jusqu'à ce que la cause soit éliminée.


Classification par sévérité

La grille de sévérité (P1 a P4) permet de prioriser la réponse et d'activer le bon niveau d'escalade.

Niveau Libelle Critères Exemples
P1 Critique Service totalement indisponible ou données corrompues, impact > 20 % des utilisateurs Panne de base de données principale, breach de sécurité
P2 Majeur Dégradation significative, fonctionnalité clé impactee, SLA en risque Latences 5x la normale, échec de 10 % des paiements
P3 Modere Fonctionnalité secondaire impactee, contournement possible Rapport PDF indisponible, envoi d'emails retarde
P4 Mineur Impact negligeable, aucun SLA en risque Erreur d'affichage cosmitique, log parasite

Impact vs urgence

La sévérité est le produit des deux dimensions suivantes :

quadrantChart
    title Impact vs Urgence
    x-axis Faible urgence --> Urgence elevee
    y-axis Faible impact --> Impact eleve
    quadrant-1 P1 - Traitement immediat
    quadrant-2 P2 - Escalade rapide
    quadrant-3 P4 - Ticket standard
    quadrant-4 P3 - File normale
  • Impact : nombre d'utilisateurs touches, revenu en risque, risque de données
  • Urgence : vitesse de dégradation, fenêtre de correction disponible, heure (pic ou hors-pic)

Ne pas tout classer en P1

La sur-classification est un anti-pattern courant. Quand tout est P1, rien ne l'est vraiment. Une grille de sévérité mal appliquee épuisé les équipes et dilue la réponse aux vrais incidents critiques. Appliquez les critères objectivement et revisez la classification en cours d'incident si la situation évolue.


Cycle de vie d'un incident

flowchart LR
    A([Detection]) --> B([Triage])
    B --> C([Declaration])
    C --> D([Investigation])
    D --> E([Mitigation])
    E --> F([Resolution])
    F --> G([Cloture])
    G --> H([Post-mortem])

Description des phases

Phase Objectif Livrable
Détection Identifier le symptome (alerte, signalement utilisateur) Ticket ouvert
Triage Confirmer l'incident, estimer la sévérité Sévérité provisoire
Declaration Activer le processus de réponse Canal war room ouvert
Investigation Identifier la zone d'impact et les hypothèses Hypothèse principale
Mitigation Réduire l'impact sans necessairement corriger la cause Service partiellement restaure
Résolution Corriger la cause, restaurer le service à l'état normal Service confirme stable
Clôture Valider la stabilité, notifier les parties prenantes Notification de clôture
Post-mortem Analyser les causes racines, planifier les actions correctives Document post-mortem

Bonnes pratiques fondamentales

  • Declarez l'incident tôt, même en cas de doute : il est plus facile de declasser que de rattraper un incident non déclaré
  • Separez la gestion de l'incident (restaurer le service) de la gestion du problème (éliminer la cause)
  • Documentez en temps réel : chaque action, chaque hypothèse, chaque constat
  • Revisez la sévérité toutes les 30 minutes sur un P1 en cours