Aller au contenu

Gérer les incidents

Incident response, on-call, escalade, post-mortem et boucle d'amélioration continue.


graph LR
    A["Fondamentaux"] --> B["Detection"]
    B --> C["Reponse"]
    C --> D["Resolution"]
    D --> E["Post-mortem"]
    E --> F["Automatisation"]
    F --> G["Cas avances"]

Ce que vous allez apprendre

À la fin de ce tutoriel, vous serez capable de :

  • Classifier les incidents par sévérité et distinguer incident, problème et événement
  • Mettre en place une détection efficace avec triage initial et matrice d'escalade
  • Organiser une réponse a incident structurée avec des rôles clairs
  • Mener un diagnostic methodique et restaurer le service rapidement
  • Conduire un post-mortem blameless avec identification des causes racines
  • Automatiser la détection, la remédiation et la communication d'incident
  • Préparer l'équipe avec des GameDays et mesurer la performance avec MTTR/MTTA

Prérequis

Prérequis Détail
Monitoring Notions de base (alertes, métriques, logs)
Infrastructure Expérience d'administration système ou cloud
Communication Accès a un outil de communication d'équipe (Slack, Mattermost)

Parcours

Section Contenu
Fondamentaux Définition d'un incident, sévérité P1-P4, impact vs urgence, incident/problème/événement
Detection et escalade Sources d'alerte, triage, matrice d'escalade, communication de crise
Réponse a incident Rôles (IC, Comms, Tech Lead), timeline, war room, runbooks d'urgence
Résolution et restauration Diagnostic methodique, mitigation vs fix, restauration, critères de clôture
Post-mortem Blameless post-mortem, template, causes racines (5 Whys, Ishikawa), action items
Automatisation Auto-remédiation, alerting intelligent, ChatOps, PagerDuty/Opsgenie
Cas avances Incidents sécurité, GameDay, chaos engineering, métriques MTTR/MTTA/MTBF