Aller au contenu

Détection et escalade

Identifier un incident rapidement et mobiliser les bonnes personnes au bon moment.


Sources de détection

Un incident peut être détecté par plusieurs canaux. La diversite des sources réduit le temps de détection (MTTD).

Source Description Exemples d'outils
Monitoring actif Alertes declenchees par seuils sur métriques ou logs Prometheus, Datadog, Zabbix
Synthetique Sondes extérieures simulant des parcours utilisateurs Pingdom, Checkly, Datadog Synthetics
Signalement utilisateur Remontee via support, chat, formulaire Zendesk, Intercom, canal #incidents
Détection externe Service tiers signale une anomalie (CDN, API partenaire) Status pages fournisseurs, webhooks
Audit de sécurité Alertes SIEM, détection d'anomalie comportementale Splunk, Elastic SIEM, Wazuh

Priorité des sources

Les sources synthetiques et le monitoring actif sont les plus fiables car elles opèrent sans intervention humaine. Les signalements utilisateurs restent indispensables pour les incidents silencieux (erreurs sans logs, dégradations de perception).


Triage initial — les 5 premières minutes

Le triage vise à confirmer l'incident, estimer la sévérité et décider de la suite.

flowchart TD
    A([Alerte recue]) --> B{Service impacte ?}
    B -- Non --> C[Faux positif — fermer l'alerte]
    B -- Oui --> D{Utilisateurs affectes ?}
    D -- Non --> E[P4 — ticket standard]
    D -- Oui --> F{Fonctionnalite critique ?}
    F -- Non --> G[P3 ou P2 selon impact]
    F -- Oui --> H{Service totalement indisponible ?}
    H -- Non --> I[P2 — escalade equipe]
    H -- Oui --> J[P1 — declarer incident majeur]

Checklist triage

  • Confirmer le symptome avec une source indépendante (dashboard, curl, test synthetique)
  • Estimer le périmètre : un service ? une region ? tous les clients ?
  • Vérifier les changements récents (déploiements, migrations, modifications config)
  • Attribuer une sévérité provisoire
  • Ouvrir le canal war room si P1 ou P2

Matrice d'escalade

La matrice définit qui contacter, dans quel délai et par quel canal selon la sévérité.

Sévérité Qui contacter Délai max Canal
P1 IC + Tech Lead + Manager + Direction si > 30 min Immédiat PagerDuty / appel direct
P2 IC + Tech Lead < 15 min PagerDuty / Slack
P3 Équipe on-call < 2 h Slack / ticket
P4 Équipe on-call (file normale) Prochain sprint Ticket Jira/Linear

IC = Incident Commander, responsable de la coordination de la réponse.

Règles d'escalade

  • Escaladez si aucune hypothèse viable après 20 minutes sur un P1
  • Escaladez si l'incident touche plusieurs équipes ou systèmes
  • Ne jamais hesiter a escalader : le coût d'une escalade inutile est negligeable face au coût d'une résolution retardee

Automatiser le triage

Les outils modernes (PagerDuty Event Intelligence, Opsgenie AIOps) peuvent enrichir automatiquement les alertes avec le contexte (déploiements récents, anomalies correlated) et suggérer une sévérité. Cela réduit le temps de triage de 40 a 60 % sur les incidents recurrents.


Communication de crise

Statuspage

Publiez un message de statut public dès que l'impact est confirme sur un service visible par les clients.

Phase Contenu du message
Début "Nous investigons une dégradation sur [service]. Prochaine mise à jour dans 30 min."
En cours "L'incident est identifié. Nous travaillons à la résolution. Impact : [périmètre]."
Clôture "Le service est restaure. Un post-mortem sera publie sous 5 jours ouvrables."

Templates internes

Maintenez des templates pre-rédigés dans votre wiki pour les communications :

  • Notification initiale équipe (Slack)
  • Mise à jour stakeholders (email / Slack #management)
  • Communication client (statuspage / email)

Réduire la charge cognitive pendant un incident permet de se concentrer sur la résolution.