Collaborer en exploitation¶

Rotations on-call, war rooms, blameless culture, pratiques SRE et toil management.

graph LR
    A["Fondamentaux"] --> B["On-call"]
    B --> C["Blameless"]
    C --> D["Toil"]
    D --> E["Communication"]
    E --> F["SRE"]
    F --> G["Cas avances"]

Ce que vous allez apprendre¶

À la fin de ce tutoriel, vous serez capable de :

Comprendre l'évolution des silos dev/ops vers DevOps et SRE
Organiser des rotations on-call saines et efficaces
Cultiver une blameless culture et la sécurité psychologique en équipe
Identifier, mesurer et éliminer le toil pour libérer du temps d'engineering
Mettre en place une communication opérationnelle efficace (statuspage, ChatOps, war rooms)
Appliquer les pratiques SRE (error budgets, SLO reviews, production readiness)
Explorer les tendances : platform engineering, inner source, community of practice

Prérequis¶

Prérequis	Détail
Expérience ops	Au moins quelques mois en exploitation ou DevOps
Incidents	Notions de gestion d'incidents (voir Gérer les incidents)
Monitoring	SLO/SLI de base (voir Superviser)

Parcours¶

Section	Contenu
Fondamentaux	Silos dev/ops, DevOps, SRE, responsabilité partagee, "you build it, you run it"
On-call et astreintes	Rotations, compensation, handoff, runbooks d'astreinte, sante d'équipe
Blameless culture	Sécurité psychologique, just culture, learning from failure
Toil management	Définition du toil, mesure, budget 50% engineering, élimination
Communication operationnelle	Statuspage, crise, ChatOps, rapports d'exploitation
Pratiques SRE	Error budgets, SLO reviews, production readiness, launch checklist
Cas avances	Platform engineering, inner source, DX ops, community of practice, DORA