Pratiques SRE¶
Error budgets en équipe, SLO reviews, production readiness et launch checklist.
Error budgets en équipe¶
L'error budget est le "budget d'indisponibilite" autorise par un SLO. Si le SLO est de 99,9%, l'error budget est de 0,1% du temps, soit environ 43 minutes par mois.
Outil de décision feature vs fiabilité¶
L'error budget transforme le debat dev/ops en question objective :
- Budget intact ou en avance : l'équipe peut accélérer les déploiements, prendre plus de risques
- Budget consomme a 50% : prudence, ralentir les changements risques
- Budget presque consomme : pause des nouvelles features, investissement fiabilité obligatoire
- Budget dépassé : freeze features, tout le sprint va à la fiabilité
Error budget consomme = freeze features, investir fiabilité
Ce mécanisme est intentionnel : il créé une incitation économique pour les équipes dev a investir dans la fiabilité. La fiabilité n'est plus "le problème des ops", elle impacte directement la velocite feature.
Gouvernance de l'error budget¶
| Acteur | Rôle |
|---|---|
| SRE / ops | Mesurer et rendre visible la consommation |
| Product owner | Arbitrer feature vs fiabilité en fonction du budget |
| Tech lead | Proposer les investissements fiabilité prioritaires |
| Management | Soutenir les freezes features quand le budget l'exige |
SLO reviews¶
La SLO review est une réunion périodique (mensuelle en général) ou l'équipe examine l'état de ses engagements de fiabilité.
Agenda type d'une SLO review¶
- Consommation d'error budget par service : graphe sur 30 jours
- Services proches du seuil : analyse des causes, actions proposees
- Incidents ayant consomme significativement : lien postmortems
- Ajustement des SLO : certains sont-ils trop ambitieux ou trop lâches ?
- Roadmap fiabilité : avancement des actions correctives des reviews précédentes
Ajustements des SLO¶
Un SLO n'est pas grave dans le marbre. Il doit être révisé si :
- Il est constamment dépassé sans effort : le seuil est peut-être trop ambitieux
- Il n'est jamais approche : le seuil est peut-être trop lâche, masquant des dégradations réelles
- Le comportement utilisateur a change : les attentes ont évolue
Production readiness review¶
La production readiness review (PRR) est un processus de validation avant qu'un service ou une feature majeure ne parte en production. Elle evite les incidents "évidemment evitables" par un checklist systematique.
Checklist de production readiness¶
| Critère | Questions clés |
|---|---|
| Monitoring | Les métriques critiques sont-elles instrumentees ? Les dashboards existent-ils ? |
| Alerting | Les alertes couvrent-elles les modes de défaillance connus ? Les seuils sont-ils calibres ? |
| Runbooks | Existe-t-il un runbook pour chaque alerte ? Est-il à jour et teste ? |
| Disaster recovery | Le RTO/RPO est-il défini ? La procédure de restauration est-elle testée ? |
| On-call | Qui est on-call pour ce service ? La rotation est-elle en place ? |
| SLO | Le SLO du service est-il défini et mesure ? L'error budget est-il calcule ? |
| Capacité | La capacité a été-t-elle estimée pour les 3 prochains mois ? |
| Dépendances | Les dépendances critiques sont-elles identifiées et leur fiabilité évaluée ? |
Launch checklist¶
La launch checklist est le processus séquentiel qui garantit qu'un nouveau service ou une release majeure est pret pour la production.
graph LR
A["Design\nreview"] --> B["Capacity\nplanning"]
B --> C["Monitoring\n& alerting"]
C --> D["Runbooks\necrits"]
D --> E["DR teste"]
E --> F["On-call\nconfigure"]
F --> G["PRR\nvalidee"]
G --> H["Go-live"]
H --> I["Hypercare\n(48-72h)"] Phase hypercare¶
Après le go-live, une periode d'hypercare de 48 a 72 heures implique :
- Surveillance renforcee avec seuils plus bas
- Team disponible rapidement (pas necessairement d'astreinte formelle)
- Revue quotidienne des métriques les premiers jours
- Critères de rollback clairement définis avant le lancement
Capacity planning collaboratif¶
Le capacity planning est trop souvent fait en silo par les ops. Associer les devs amélioré la précision et la responsabilité.
Inputs nécessaires¶
| Source | Information |
|---|---|
| Product / marketing | Prévisions de croissance, campagnes planifiees |
| Dev | Changements architecturaux impactant les ressources |
| Ops / SRE | Tendances historiques de consommation, headroom actuel |
| Finance | Budget infrastructure disponible |
Cadence recommandee¶
- Mensuel : revue de la consommation vs prévisions
- Trimestriel : projection 3-6 mois, commandes si nécessaire
- Annuel : plan capacité pour le budget N+1
Capacity planning = prévenir, pas reagir
Atteindre 80% de capacité sans plan est un incident en préparation. La plupart des incidents de saturation sont predictibles plusieurs semaines à l'avance avec un suivi minimal des tendances.