Aller au contenu

Communication opérationnelle

Statuspage, communication de crise, ChatOps et rapports d'exploitation.


La communication pendant un incident

La résolution technique d'un incident n'est que la moitie du travail. Une mauvaise communication peut transformer un incident de severity 3 en crise de confiance avec les utilisateurs ou le management.

Communication pendant incident aussi importante que résolution technique

Un incident bien résolu mais mal communique laisse les utilisateurs dans l'incertitude et dégradé la confiance durablement. Un incident pris plus longtemps mais avec des mises à jour régulières est mieux vecu.

Flux de communication pendant un incident

sequenceDiagram
    participant Sys as Systeme
    participant Resp as Responsable incident
    participant SP as Statuspage
    participant Chat as Canal incident
    participant Stake as Parties prenantes

    Sys->>Resp: Alerte detectee
    Resp->>Chat: Ouverture canal incident
    Resp->>SP: Premiere mise a jour (< 10 min)
    Resp->>Stake: Notification initiale
    loop Toutes les 30 min
        Resp->>SP: Mise a jour statut
        Resp->>Chat: Update technique interne
    end
    Resp->>SP: Resolution + resume
    Resp->>Stake: Message cloture
    Resp->>Chat: Fermeture canal, lien postmortem

Statuspage

La statuspage est la façade publique de votre état opérationnel. Elle permet aux utilisateurs de suivre les incidents sans inonder le support.

Quand mettre à jour la statuspage

  • Immédiatement (< 10 min) : des qu'un impact utilisateur est confirme
  • Régulièrement : toutes les 30 minutes minimum pendant un incident actif
  • À la résolution : message de clôture avec résumé et prochaines étapes si pertinent

Templates par sévérité

Sévérité Template initial Fréquence MAJ
S1 (critique) "Nous investigons un incident impactant [service]. Prochaine MAJ dans 30 min." 30 min
S2 (majeur) "Dégradation en cours sur [service]. Certains utilisateurs peuvent être impactes." 45 min
S3 (mineur) "Performance dégradée sur [fonctionnalité]. Impact limite, workaround disponible." 60 min

Transparence vs panique

La transparence est preferable à l'opacite, mais le message doit rester factuel et orient solution :

  • Factuel : ce qui est impacte, ce qui fonctionne encore
  • Orienté solution : "nous travaillons à la résolution", pas "tout est casse"
  • Sans speculations techniques : les utilisateurs n'ont pas besoin du root cause en temps réel

Outils statuspage

Outil Type Forces
Atlassian Statuspage SaaS commercial Standard industrie, integrations natives
Cachet Open source Auto-heberge, gratuit
Instatus SaaS abordable Simple, bon rapport qualité/prix
Better Uptime SaaS Monitoring + statuspage intégrés

Communication de crise

La première annonce

La première annonce doit arriver vite, même si elle contient peu d'informations. Le silence est pire que l'incertitude.

Structure : Quoi (symptome, pas cause) | Impact (qui, quoi) | Statut (en cours d'investigation) | Prochaine MAJ (heure precise)

Mises à jour régulières

Même si rien n'a change techniquement, une mise à jour "nous continuons d'investiguer, prochaine MAJ dans 30 min" est indispensable. Elle signale que l'incident est pris en charge.

Message de résolution

  • Confirmer la résolution et l'heure
  • Décrire brievement ce qui s'est passe (sans blame)
  • Indiquer les mesures preventives prévues
  • Mentionner le postmortem a venir si pertinent

Canaux dédiés et war rooms

Séparation signal / bruit

  • Un canal général #ops-alerts pour toutes les alertes (bruit acceptable)
  • Un canal par incident #inc-20240315-database créé dynamiquement (signal pur)
  • Le canal incident est archive après clôture, lien vers postmortem en description

War room

La war room est la réunion de crise synchrone (vocal ou video) pour les incidents majeurs :

  • Convocation immédiate : responsable incident, tech lead, potentiellement product owner
  • Scribe désigné : documente le timeline en temps réel
  • Responsable communication : géré les parties prenantes externes pendant que les tech résolvent
  • Durée max avant pause délibérée : 90 minutes (fatigue cognitive)

ChatOps

Le ChatOps consiste à déclencher des opérations depuis le canal de chat, rendant les actions visibles et tracables par toute l'équipe.

Opérations courantes en ChatOps

Commande Action
/deploy service v1.2.3 prod Déclenche un déploiement visible par tous
/rollback service prod Rollback avec trace dans le canal
/ack alert-123 Acquitter une alerte avec message
/status service Afficher le statut en temps réel
/runbook service-crash Afficher le runbook dans le canal

Intégration monitoring

Les bots ChatOps peuvent poster automatiquement dans le bon canal :

  • Alertes Grafana avec lien direct vers le dashboard
  • Notifications de déploiement depuis CI/CD
  • Mises à jour de tickets incidents

Rapports d'exploitation

Rapport hebdomadaire

Contenu type : nombre d'incidents par sévérité, MTTR moyen, top 3 des alertes les plus fréquentes, déploiements effectues, toil mesure.

Rapport mensuel

Contenu type : tendances SLO (consommation error budget), incidents significatifs avec liens postmortems, avancement des actions correctives, métriques on-call (pages/semaine, interventions nocturnes), roadmap fiabilité.

Automatiser les rapports

Un rapport généré manuellement est un rapport bientôt abandonne. Investir dans l'automatisation (dashboards Grafana, exports depuis JIRA) est lui-même une élimination de toil.