Fondamentaux de la gestion d'incidents¶

Comprendre ce qu'est un incident, comment le classifier et comment suivre son cycle de vie.

Qu'est-ce qu'un incident¶

Un incident est tout événement non planifie qui provoque une dégradation ou une interruption d'un service en production, affectant directement les utilisateurs ou la capacité opérationnelle de l'organisation.

La notion clé est l'impact mesurable : une alerte sans conséquence visible n'est pas un incident au sens ITSM du terme.

Incident, problème et événement¶

Concept	Définition	Exemple
Événement	Changement d'état détecté dans le système	Alerte CPU > 80 %
Incident	Interruption ou dégradation de service non planifiee	API en erreur 500 pour 30 % des requêtes
Problème	Cause racine sous-jacente d'un ou plusieurs incidents	Fuite mémoire dans le service de paiement

Un incident peut être clos une fois le service restaure, même si la cause racine n'est pas encore identifiée. Le problème persiste jusqu'à ce que la cause soit éliminée.

Classification par sévérité¶

La grille de sévérité (P1 a P4) permet de prioriser la réponse et d'activer le bon niveau d'escalade.

Niveau	Libelle	Critères	Exemples
P1	Critique	Service totalement indisponible ou données corrompues, impact > 20 % des utilisateurs	Panne de base de données principale, breach de sécurité
P2	Majeur	Dégradation significative, fonctionnalité clé impactee, SLA en risque	Latences 5x la normale, échec de 10 % des paiements
P3	Modere	Fonctionnalité secondaire impactee, contournement possible	Rapport PDF indisponible, envoi d'emails retarde
P4	Mineur	Impact negligeable, aucun SLA en risque	Erreur d'affichage cosmitique, log parasite

Impact vs urgence¶

La sévérité est le produit des deux dimensions suivantes :

quadrantChart
    title Impact vs Urgence
    x-axis Faible urgence --> Urgence elevee
    y-axis Faible impact --> Impact eleve
    quadrant-1 P1 - Traitement immediat
    quadrant-2 P2 - Escalade rapide
    quadrant-3 P4 - Ticket standard
    quadrant-4 P3 - File normale

Impact : nombre d'utilisateurs touches, revenu en risque, risque de données
Urgence : vitesse de dégradation, fenêtre de correction disponible, heure (pic ou hors-pic)

Ne pas tout classer en P1

La sur-classification est un anti-pattern courant. Quand tout est P1, rien ne l'est vraiment. Une grille de sévérité mal appliquee épuisé les équipes et dilue la réponse aux vrais incidents critiques. Appliquez les critères objectivement et revisez la classification en cours d'incident si la situation évolue.

Cycle de vie d'un incident¶

flowchart LR
    A([Detection]) --> B([Triage])
    B --> C([Declaration])
    C --> D([Investigation])
    D --> E([Mitigation])
    E --> F([Resolution])
    F --> G([Cloture])
    G --> H([Post-mortem])

Description des phases¶

Phase	Objectif	Livrable
Détection	Identifier le symptome (alerte, signalement utilisateur)	Ticket ouvert
Triage	Confirmer l'incident, estimer la sévérité	Sévérité provisoire
Declaration	Activer le processus de réponse	Canal war room ouvert
Investigation	Identifier la zone d'impact et les hypothèses	Hypothèse principale
Mitigation	Réduire l'impact sans necessairement corriger la cause	Service partiellement restaure
Résolution	Corriger la cause, restaurer le service à l'état normal	Service confirme stable
Clôture	Valider la stabilité, notifier les parties prenantes	Notification de clôture
Post-mortem	Analyser les causes racines, planifier les actions correctives	Document post-mortem

Bonnes pratiques fondamentales¶

Declarez l'incident tôt, même en cas de doute : il est plus facile de declasser que de rattraper un incident non déclaré
Separez la gestion de l'incident (restaurer le service) de la gestion du problème (éliminer la cause)
Documentez en temps réel : chaque action, chaque hypothèse, chaque constat
Revisez la sévérité toutes les 30 minutes sur un P1 en cours