Communication opérationnelle¶
Statuspage, communication de crise, ChatOps et rapports d'exploitation.
La communication pendant un incident¶
La résolution technique d'un incident n'est que la moitie du travail. Une mauvaise communication peut transformer un incident de severity 3 en crise de confiance avec les utilisateurs ou le management.
Communication pendant incident aussi importante que résolution technique
Un incident bien résolu mais mal communique laisse les utilisateurs dans l'incertitude et dégradé la confiance durablement. Un incident pris plus longtemps mais avec des mises à jour régulières est mieux vecu.
Flux de communication pendant un incident¶
sequenceDiagram
participant Sys as Systeme
participant Resp as Responsable incident
participant SP as Statuspage
participant Chat as Canal incident
participant Stake as Parties prenantes
Sys->>Resp: Alerte detectee
Resp->>Chat: Ouverture canal incident
Resp->>SP: Premiere mise a jour (< 10 min)
Resp->>Stake: Notification initiale
loop Toutes les 30 min
Resp->>SP: Mise a jour statut
Resp->>Chat: Update technique interne
end
Resp->>SP: Resolution + resume
Resp->>Stake: Message cloture
Resp->>Chat: Fermeture canal, lien postmortem Statuspage¶
La statuspage est la façade publique de votre état opérationnel. Elle permet aux utilisateurs de suivre les incidents sans inonder le support.
Quand mettre à jour la statuspage¶
- Immédiatement (< 10 min) : des qu'un impact utilisateur est confirme
- Régulièrement : toutes les 30 minutes minimum pendant un incident actif
- À la résolution : message de clôture avec résumé et prochaines étapes si pertinent
Templates par sévérité¶
| Sévérité | Template initial | Fréquence MAJ |
|---|---|---|
| S1 (critique) | "Nous investigons un incident impactant [service]. Prochaine MAJ dans 30 min." | 30 min |
| S2 (majeur) | "Dégradation en cours sur [service]. Certains utilisateurs peuvent être impactes." | 45 min |
| S3 (mineur) | "Performance dégradée sur [fonctionnalité]. Impact limite, workaround disponible." | 60 min |
Transparence vs panique¶
La transparence est preferable à l'opacite, mais le message doit rester factuel et orient solution :
- Factuel : ce qui est impacte, ce qui fonctionne encore
- Orienté solution : "nous travaillons à la résolution", pas "tout est casse"
- Sans speculations techniques : les utilisateurs n'ont pas besoin du root cause en temps réel
Outils statuspage¶
| Outil | Type | Forces |
|---|---|---|
| Atlassian Statuspage | SaaS commercial | Standard industrie, integrations natives |
| Cachet | Open source | Auto-heberge, gratuit |
| Instatus | SaaS abordable | Simple, bon rapport qualité/prix |
| Better Uptime | SaaS | Monitoring + statuspage intégrés |
Communication de crise¶
La première annonce¶
La première annonce doit arriver vite, même si elle contient peu d'informations. Le silence est pire que l'incertitude.
Structure : Quoi (symptome, pas cause) | Impact (qui, quoi) | Statut (en cours d'investigation) | Prochaine MAJ (heure precise)
Mises à jour régulières¶
Même si rien n'a change techniquement, une mise à jour "nous continuons d'investiguer, prochaine MAJ dans 30 min" est indispensable. Elle signale que l'incident est pris en charge.
Message de résolution¶
- Confirmer la résolution et l'heure
- Décrire brievement ce qui s'est passe (sans blame)
- Indiquer les mesures preventives prévues
- Mentionner le postmortem a venir si pertinent
Canaux dédiés et war rooms¶
Séparation signal / bruit¶
- Un canal général
#ops-alertspour toutes les alertes (bruit acceptable) - Un canal par incident
#inc-20240315-databasecréé dynamiquement (signal pur) - Le canal incident est archive après clôture, lien vers postmortem en description
War room¶
La war room est la réunion de crise synchrone (vocal ou video) pour les incidents majeurs :
- Convocation immédiate : responsable incident, tech lead, potentiellement product owner
- Scribe désigné : documente le timeline en temps réel
- Responsable communication : géré les parties prenantes externes pendant que les tech résolvent
- Durée max avant pause délibérée : 90 minutes (fatigue cognitive)
ChatOps¶
Le ChatOps consiste à déclencher des opérations depuis le canal de chat, rendant les actions visibles et tracables par toute l'équipe.
Opérations courantes en ChatOps¶
| Commande | Action |
|---|---|
/deploy service v1.2.3 prod | Déclenche un déploiement visible par tous |
/rollback service prod | Rollback avec trace dans le canal |
/ack alert-123 | Acquitter une alerte avec message |
/status service | Afficher le statut en temps réel |
/runbook service-crash | Afficher le runbook dans le canal |
Intégration monitoring¶
Les bots ChatOps peuvent poster automatiquement dans le bon canal :
- Alertes Grafana avec lien direct vers le dashboard
- Notifications de déploiement depuis CI/CD
- Mises à jour de tickets incidents
Rapports d'exploitation¶
Rapport hebdomadaire¶
Contenu type : nombre d'incidents par sévérité, MTTR moyen, top 3 des alertes les plus fréquentes, déploiements effectues, toil mesure.
Rapport mensuel¶
Contenu type : tendances SLO (consommation error budget), incidents significatifs avec liens postmortems, avancement des actions correctives, métriques on-call (pages/semaine, interventions nocturnes), roadmap fiabilité.
Automatiser les rapports
Un rapport généré manuellement est un rapport bientôt abandonne. Investir dans l'automatisation (dashboards Grafana, exports depuis JIRA) est lui-même une élimination de toil.