Réponse a incident¶
Organiser une réponse structurée avec des rôles clairs, une war room et des runbooks.
Les trois rôles fondamentaux¶
Une réponse efficace repose sur la séparation des responsabilités. Trois rôles couvrent l'essentiel des besoins.
| Rôle | Responsabilité | Ne fait pas |
|---|---|---|
| Incident Commander (IC) | Coordonné la réponse, prend les décisions, géré la timeline | Ne touche pas aux systèmes |
| Comms Lead | Redige les mises à jour, géré la statuspage, notifie les stakeholders | Ne coordonné pas la technique |
| Tech Lead | Dirige le diagnostic, supervise les actions techniques | Ne communique pas avec l'extérieur |
Sur les P3/P4, une seule personne peut cumuler plusieurs rôles. Sur un P1, la séparation est obligatoire pour éviter la surchargé cognitive.
Montee en puissance des rôles¶
flowchart LR
A([Alerte]) --> B[On-call ingenieur\nIC provisoire]
B --> C{P1 ou P2 ?}
C -- Non --> D[Resolution par on-call\nroles cumules]
C -- Oui --> E[IC designe\nComms Lead designe]
E --> F[Tech Lead designe\nEquipes specialistes]
F --> G[War Room ouverte] La war room¶
La war room est un espace de coordination dédié, isole du bruit des canaux habituels.
Structure du canal¶
- Nom normalise :
#inc-YYYYMMDD-<service>(ex :#inc-20240315-paiement) - Toujours commencer par un message fixe (pinned) avec : sévérité, IC, Comms Lead, Tech Lead, heure de début
- Mettre à jour le message fixe à chaque changement majeur
Règles de la war room¶
| Règle | Pourquoi |
|---|---|
| Seule la war room fait foi pour l'état de l'incident | Evite les informations contradictoires |
| Toute action technique est annoncee avant exécution | Permet de correlater les effets |
| Pas de discussions parallèles hors du canal | Réduit les silos d'information |
| L'IC à le dernier mot sur les décisions | Evite les blocages par consensus |
Timeline temps réel¶
L'IC ou un scribe dédié documente chaque événement avec un horodatage.
| Heure | Acteur | Action / Constat |
|---|---|---|
| 14:03 | Alerte | CPU > 95 % sur prod-api-02 |
| 14:05 | on-call | Confirmation impact : 503 sur /checkout |
| 14:07 | IC | Incident déclaré P1, war room ouverte |
| 14:12 | Tech Lead | Hypothèse : fuite connexion DB |
| 14:18 | Tech Lead | Rollback deploy 14h00 initié |
| 14:24 | on-call | Taux d'erreur retombe a 0 % |
| 14:26 | IC | Service confirme stable — incident mitigue |
La timeline sert de base au post-mortem et permet de reconstituer exactement ce qui s'est passe.
Runbooks d'urgence¶
Un runbook d'urgence est une procédure pas-a-pas pour les scenarios d'incidents les plus fréquents.
Structure d'un runbook¶
- Titre : nom du scenario (ex : "Redémarrage du service de paiement")
- Déclencheur : symptomes typiques qui justifient ce runbook
- Pre-requis : accès, permissions nécessaires
- Étapes : actions ordonnées avec commandes ou chemins UI
- Vérification : comment confirmer que l'action a eu l'effet voulu
- Escalade : que faire si le runbook ne suffit pas
Bonnes pratiques¶
- Testez les runbooks régulièrement (chaos day, exercices)
- Versionnez-les avec le code (GitOps)
- Linkez les runbooks depuis les alertes (annotation dans Grafana, Datadog)
- Limitez un runbook a un seul scenario : privilegiez la clarte sur l'exhaustivité
Lien avec la documentation
Les runbooks d'urgence sont distincts de la documentation opérationnelle générale. Ils doivent être concis, actionables en situation de stress. Voir le chapitre Documenter les runbooks pour la structure détaillée.