Détection et escalade¶
Identifier un incident rapidement et mobiliser les bonnes personnes au bon moment.
Sources de détection¶
Un incident peut être détecté par plusieurs canaux. La diversite des sources réduit le temps de détection (MTTD).
| Source | Description | Exemples d'outils |
|---|---|---|
| Monitoring actif | Alertes declenchees par seuils sur métriques ou logs | Prometheus, Datadog, Zabbix |
| Synthetique | Sondes extérieures simulant des parcours utilisateurs | Pingdom, Checkly, Datadog Synthetics |
| Signalement utilisateur | Remontee via support, chat, formulaire | Zendesk, Intercom, canal #incidents |
| Détection externe | Service tiers signale une anomalie (CDN, API partenaire) | Status pages fournisseurs, webhooks |
| Audit de sécurité | Alertes SIEM, détection d'anomalie comportementale | Splunk, Elastic SIEM, Wazuh |
Priorité des sources¶
Les sources synthetiques et le monitoring actif sont les plus fiables car elles opèrent sans intervention humaine. Les signalements utilisateurs restent indispensables pour les incidents silencieux (erreurs sans logs, dégradations de perception).
Triage initial — les 5 premières minutes¶
Le triage vise à confirmer l'incident, estimer la sévérité et décider de la suite.
flowchart TD
A([Alerte recue]) --> B{Service impacte ?}
B -- Non --> C[Faux positif — fermer l'alerte]
B -- Oui --> D{Utilisateurs affectes ?}
D -- Non --> E[P4 — ticket standard]
D -- Oui --> F{Fonctionnalite critique ?}
F -- Non --> G[P3 ou P2 selon impact]
F -- Oui --> H{Service totalement indisponible ?}
H -- Non --> I[P2 — escalade equipe]
H -- Oui --> J[P1 — declarer incident majeur] Checklist triage¶
- Confirmer le symptome avec une source indépendante (dashboard, curl, test synthetique)
- Estimer le périmètre : un service ? une region ? tous les clients ?
- Vérifier les changements récents (déploiements, migrations, modifications config)
- Attribuer une sévérité provisoire
- Ouvrir le canal war room si P1 ou P2
Matrice d'escalade¶
La matrice définit qui contacter, dans quel délai et par quel canal selon la sévérité.
| Sévérité | Qui contacter | Délai max | Canal |
|---|---|---|---|
| P1 | IC + Tech Lead + Manager + Direction si > 30 min | Immédiat | PagerDuty / appel direct |
| P2 | IC + Tech Lead | < 15 min | PagerDuty / Slack |
| P3 | Équipe on-call | < 2 h | Slack / ticket |
| P4 | Équipe on-call (file normale) | Prochain sprint | Ticket Jira/Linear |
IC = Incident Commander, responsable de la coordination de la réponse.
Règles d'escalade¶
- Escaladez si aucune hypothèse viable après 20 minutes sur un P1
- Escaladez si l'incident touche plusieurs équipes ou systèmes
- Ne jamais hesiter a escalader : le coût d'une escalade inutile est negligeable face au coût d'une résolution retardee
Automatiser le triage
Les outils modernes (PagerDuty Event Intelligence, Opsgenie AIOps) peuvent enrichir automatiquement les alertes avec le contexte (déploiements récents, anomalies correlated) et suggérer une sévérité. Cela réduit le temps de triage de 40 a 60 % sur les incidents recurrents.
Communication de crise¶
Statuspage¶
Publiez un message de statut public dès que l'impact est confirme sur un service visible par les clients.
| Phase | Contenu du message |
|---|---|
| Début | "Nous investigons une dégradation sur [service]. Prochaine mise à jour dans 30 min." |
| En cours | "L'incident est identifié. Nous travaillons à la résolution. Impact : [périmètre]." |
| Clôture | "Le service est restaure. Un post-mortem sera publie sous 5 jours ouvrables." |
Templates internes¶
Maintenez des templates pre-rédigés dans votre wiki pour les communications :
- Notification initiale équipe (Slack)
- Mise à jour stakeholders (email / Slack #management)
- Communication client (statuspage / email)
Réduire la charge cognitive pendant un incident permet de se concentrer sur la résolution.