Aller au contenu

Collaborer en exploitation

Rotations on-call, war rooms, blameless culture, pratiques SRE et toil management.


graph LR
    A["Fondamentaux"] --> B["On-call"]
    B --> C["Blameless"]
    C --> D["Toil"]
    D --> E["Communication"]
    E --> F["SRE"]
    F --> G["Cas avances"]

Ce que vous allez apprendre

À la fin de ce tutoriel, vous serez capable de :

  • Comprendre l'évolution des silos dev/ops vers DevOps et SRE
  • Organiser des rotations on-call saines et efficaces
  • Cultiver une blameless culture et la sécurité psychologique en équipe
  • Identifier, mesurer et éliminer le toil pour libérer du temps d'engineering
  • Mettre en place une communication opérationnelle efficace (statuspage, ChatOps, war rooms)
  • Appliquer les pratiques SRE (error budgets, SLO reviews, production readiness)
  • Explorer les tendances : platform engineering, inner source, community of practice

Prérequis

Prérequis Détail
Expérience ops Au moins quelques mois en exploitation ou DevOps
Incidents Notions de gestion d'incidents (voir Gérer les incidents)
Monitoring SLO/SLI de base (voir Superviser)

Parcours

Section Contenu
Fondamentaux Silos dev/ops, DevOps, SRE, responsabilité partagee, "you build it, you run it"
On-call et astreintes Rotations, compensation, handoff, runbooks d'astreinte, sante d'équipe
Blameless culture Sécurité psychologique, just culture, learning from failure
Toil management Définition du toil, mesure, budget 50% engineering, élimination
Communication operationnelle Statuspage, crise, ChatOps, rapports d'exploitation
Pratiques SRE Error budgets, SLO reviews, production readiness, launch checklist
Cas avances Platform engineering, inner source, DX ops, community of practice, DORA