Pratiques SRE¶

Error budgets en équipe, SLO reviews, production readiness et launch checklist.

Error budgets en équipe¶

L'error budget est le "budget d'indisponibilite" autorise par un SLO. Si le SLO est de 99,9%, l'error budget est de 0,1% du temps, soit environ 43 minutes par mois.

Outil de décision feature vs fiabilité¶

L'error budget transforme le debat dev/ops en question objective :

Budget intact ou en avance : l'équipe peut accélérer les déploiements, prendre plus de risques
Budget consomme a 50% : prudence, ralentir les changements risques
Budget presque consomme : pause des nouvelles features, investissement fiabilité obligatoire
Budget dépassé : freeze features, tout le sprint va à la fiabilité

Error budget consomme = freeze features, investir fiabilité

Ce mécanisme est intentionnel : il créé une incitation économique pour les équipes dev a investir dans la fiabilité. La fiabilité n'est plus "le problème des ops", elle impacte directement la velocite feature.

Gouvernance de l'error budget¶

Acteur	Rôle
SRE / ops	Mesurer et rendre visible la consommation
Product owner	Arbitrer feature vs fiabilité en fonction du budget
Tech lead	Proposer les investissements fiabilité prioritaires
Management	Soutenir les freezes features quand le budget l'exige

SLO reviews¶

La SLO review est une réunion périodique (mensuelle en général) ou l'équipe examine l'état de ses engagements de fiabilité.

Agenda type d'une SLO review¶

Consommation d'error budget par service : graphe sur 30 jours
Services proches du seuil : analyse des causes, actions proposees
Incidents ayant consomme significativement : lien postmortems
Ajustement des SLO : certains sont-ils trop ambitieux ou trop lâches ?
Roadmap fiabilité : avancement des actions correctives des reviews précédentes

Ajustements des SLO¶

Un SLO n'est pas grave dans le marbre. Il doit être révisé si :

Il est constamment dépassé sans effort : le seuil est peut-être trop ambitieux
Il n'est jamais approche : le seuil est peut-être trop lâche, masquant des dégradations réelles
Le comportement utilisateur a change : les attentes ont évolue

Production readiness review¶

La production readiness review (PRR) est un processus de validation avant qu'un service ou une feature majeure ne parte en production. Elle evite les incidents "évidemment evitables" par un checklist systematique.

Checklist de production readiness¶

Critère	Questions clés
Monitoring	Les métriques critiques sont-elles instrumentees ? Les dashboards existent-ils ?
Alerting	Les alertes couvrent-elles les modes de défaillance connus ? Les seuils sont-ils calibres ?
Runbooks	Existe-t-il un runbook pour chaque alerte ? Est-il à jour et teste ?
Disaster recovery	Le RTO/RPO est-il défini ? La procédure de restauration est-elle testée ?
On-call	Qui est on-call pour ce service ? La rotation est-elle en place ?
SLO	Le SLO du service est-il défini et mesure ? L'error budget est-il calcule ?
Capacité	La capacité a été-t-elle estimée pour les 3 prochains mois ?
Dépendances	Les dépendances critiques sont-elles identifiées et leur fiabilité évaluée ?

Launch checklist¶

La launch checklist est le processus séquentiel qui garantit qu'un nouveau service ou une release majeure est pret pour la production.

graph LR
    A["Design\nreview"] --> B["Capacity\nplanning"]
    B --> C["Monitoring\n& alerting"]
    C --> D["Runbooks\necrits"]
    D --> E["DR teste"]
    E --> F["On-call\nconfigure"]
    F --> G["PRR\nvalidee"]
    G --> H["Go-live"]
    H --> I["Hypercare\n(48-72h)"]

Phase hypercare¶

Après le go-live, une periode d'hypercare de 48 a 72 heures implique :

Surveillance renforcee avec seuils plus bas
Team disponible rapidement (pas necessairement d'astreinte formelle)
Revue quotidienne des métriques les premiers jours
Critères de rollback clairement définis avant le lancement

Capacity planning collaboratif¶

Le capacity planning est trop souvent fait en silo par les ops. Associer les devs amélioré la précision et la responsabilité.

Inputs nécessaires¶

Source	Information
Product / marketing	Prévisions de croissance, campagnes planifiees
Dev	Changements architecturaux impactant les ressources
Ops / SRE	Tendances historiques de consommation, headroom actuel
Finance	Budget infrastructure disponible

Cadence recommandee¶

Mensuel : revue de la consommation vs prévisions
Trimestriel : projection 3-6 mois, commandes si nécessaire
Annuel : plan capacité pour le budget N+1

Capacity planning = prévenir, pas reagir

Atteindre 80% de capacité sans plan est un incident en préparation. La plupart des incidents de saturation sont predictibles plusieurs semaines à l'avance avec un suivi minimal des tendances.