Collaborer en exploitation¶
Rotations on-call, war rooms, blameless culture, pratiques SRE et toil management.
graph LR
A["Fondamentaux"] --> B["On-call"]
B --> C["Blameless"]
C --> D["Toil"]
D --> E["Communication"]
E --> F["SRE"]
F --> G["Cas avances"] Ce que vous allez apprendre¶
À la fin de ce tutoriel, vous serez capable de :
- Comprendre l'évolution des silos dev/ops vers DevOps et SRE
- Organiser des rotations on-call saines et efficaces
- Cultiver une blameless culture et la sécurité psychologique en équipe
- Identifier, mesurer et éliminer le toil pour libérer du temps d'engineering
- Mettre en place une communication opérationnelle efficace (statuspage, ChatOps, war rooms)
- Appliquer les pratiques SRE (error budgets, SLO reviews, production readiness)
- Explorer les tendances : platform engineering, inner source, community of practice
Prérequis¶
| Prérequis | Détail |
|---|---|
| Expérience ops | Au moins quelques mois en exploitation ou DevOps |
| Incidents | Notions de gestion d'incidents (voir Gérer les incidents) |
| Monitoring | SLO/SLI de base (voir Superviser) |
Parcours¶
| Section | Contenu |
|---|---|
| Fondamentaux | Silos dev/ops, DevOps, SRE, responsabilité partagee, "you build it, you run it" |
| On-call et astreintes | Rotations, compensation, handoff, runbooks d'astreinte, sante d'équipe |
| Blameless culture | Sécurité psychologique, just culture, learning from failure |
| Toil management | Définition du toil, mesure, budget 50% engineering, élimination |
| Communication operationnelle | Statuspage, crise, ChatOps, rapports d'exploitation |
| Pratiques SRE | Error budgets, SLO reviews, production readiness, launch checklist |
| Cas avances | Platform engineering, inner source, DX ops, community of practice, DORA |