Détection et escalade¶

Identifier un incident rapidement et mobiliser les bonnes personnes au bon moment.

Sources de détection¶

Un incident peut être détecté par plusieurs canaux. La diversite des sources réduit le temps de détection (MTTD).

Source	Description	Exemples d'outils
Monitoring actif	Alertes declenchees par seuils sur métriques ou logs	Prometheus, Datadog, Zabbix
Synthetique	Sondes extérieures simulant des parcours utilisateurs	Pingdom, Checkly, Datadog Synthetics
Signalement utilisateur	Remontee via support, chat, formulaire	Zendesk, Intercom, canal #incidents
Détection externe	Service tiers signale une anomalie (CDN, API partenaire)	Status pages fournisseurs, webhooks
Audit de sécurité	Alertes SIEM, détection d'anomalie comportementale	Splunk, Elastic SIEM, Wazuh

Priorité des sources¶

Les sources synthetiques et le monitoring actif sont les plus fiables car elles opèrent sans intervention humaine. Les signalements utilisateurs restent indispensables pour les incidents silencieux (erreurs sans logs, dégradations de perception).

Triage initial — les 5 premières minutes¶

Le triage vise à confirmer l'incident, estimer la sévérité et décider de la suite.

flowchart TD
    A([Alerte recue]) --> B{Service impacte ?}
    B -- Non --> C[Faux positif — fermer l'alerte]
    B -- Oui --> D{Utilisateurs affectes ?}
    D -- Non --> E[P4 — ticket standard]
    D -- Oui --> F{Fonctionnalite critique ?}
    F -- Non --> G[P3 ou P2 selon impact]
    F -- Oui --> H{Service totalement indisponible ?}
    H -- Non --> I[P2 — escalade equipe]
    H -- Oui --> J[P1 — declarer incident majeur]

Checklist triage¶

Confirmer le symptome avec une source indépendante (dashboard, curl, test synthetique)
Estimer le périmètre : un service ? une region ? tous les clients ?
Vérifier les changements récents (déploiements, migrations, modifications config)
Attribuer une sévérité provisoire
Ouvrir le canal war room si P1 ou P2

Matrice d'escalade¶

La matrice définit qui contacter, dans quel délai et par quel canal selon la sévérité.

Sévérité	Qui contacter	Délai max	Canal
P1	IC + Tech Lead + Manager + Direction si > 30 min	Immédiat	PagerDuty / appel direct
P2	IC + Tech Lead	< 15 min	PagerDuty / Slack
P3	Équipe on-call	< 2 h	Slack / ticket
P4	Équipe on-call (file normale)	Prochain sprint	Ticket Jira/Linear

IC = Incident Commander, responsable de la coordination de la réponse.

Règles d'escalade¶

Escaladez si aucune hypothèse viable après 20 minutes sur un P1
Escaladez si l'incident touche plusieurs équipes ou systèmes
Ne jamais hesiter a escalader : le coût d'une escalade inutile est negligeable face au coût d'une résolution retardee

Automatiser le triage

Les outils modernes (PagerDuty Event Intelligence, Opsgenie AIOps) peuvent enrichir automatiquement les alertes avec le contexte (déploiements récents, anomalies correlated) et suggérer une sévérité. Cela réduit le temps de triage de 40 a 60 % sur les incidents recurrents.

Communication de crise¶

Statuspage¶

Publiez un message de statut public dès que l'impact est confirme sur un service visible par les clients.

Phase	Contenu du message
Début	"Nous investigons une dégradation sur [service]. Prochaine mise à jour dans 30 min."
En cours	"L'incident est identifié. Nous travaillons à la résolution. Impact : [périmètre]."
Clôture	"Le service est restaure. Un post-mortem sera publie sous 5 jours ouvrables."

Templates internes¶

Maintenez des templates pre-rédigés dans votre wiki pour les communications :

Notification initiale équipe (Slack)
Mise à jour stakeholders (email / Slack #management)
Communication client (statuspage / email)

Réduire la charge cognitive pendant un incident permet de se concentrer sur la résolution.