Cas avances¶

Capacity planning multi-cloud, disaster recovery, modélisation what-if et capacity review meetings.

Capacity planning multi-cloud¶

Lorsque l'infrastructure s'etend sur plusieurs clouds (AWS + Azure, cloud public + cloud prive), le capacity planning doit agregger et normaliser des données hétérogènes.

Défis spécifiques¶

Métriques hétérogènes : chaque cloud utilise ses propres noms, unites et granularites
Latences inter-cloud : le réseau entre providers est un goulot d'étranglement supplémentaire
Coûts non comparables directement : les SKUs ne se correspondent pas 1:1
Limites de quota par provider : un quota atteint sur AWS ne peut pas être compense par Azure

Normalisation des unites¶

Métrique	AWS	Azure	GCP	Unite normalisee
CPU	vCPU	vCore	vCPU	vCPU
Stockage	GiB (S3, EBS)	GiB (Blob, Disk)	GiB (GCS)	GiB
Réseau sortant	GB (egress)	GB (egress)	GB (egress)	GB
Requêtes stockage	GET/PUT requests	Opérations	Class A/B ops	Milliers d'ops

Outils d'agrégation multi-cloud¶

Outil	Fonctionnement
Datadog	Agent unifie, métriques normalisees multi-cloud
Grafana Cloud	Datasources multiples, dashboards unifies
CloudHealth / Apptio	Agrégation coûts et capacité multi-cloud
OpenTelemetry Collector	Pipeline de métriques vendor-neutral

Disaster Recovery et capacity planning¶

Le DR n'est pas qu'une question de sauvegarde — c'est aussi un problème de capacité.

Stratégies DR et leurs implications capacitaires¶

quadrantChart
    title Strategies DR : cout vs vitesse de recovery
    x-axis "Lent (RTO elevé)" --> "Rapide (RTO faible)"
    y-axis "Peu couteux" --> "Tres couteux"
    quadrant-1 Actif-Actif
    quadrant-2 Warm Standby
    quadrant-3 Backup & Restore
    quadrant-4 Pilot Light
    Actif-Actif: [0.90, 0.90]
    Warm Standby: [0.65, 0.60]
    Pilot Light: [0.40, 0.35]
    Backup & Restore: [0.10, 0.10]

Stratégie	RTO	RPO	Capacité DR	Coût relatif
Backup & Restore	Heures - jours	Heures	Inexistante (provisioning à la demande)	Minimal
Pilot Light	30 min - 2h	Minutes	Services core minimaux actifs	Faible
Warm Standby	15 - 60 min	Secondes	Infrastructure partielle (50 %)	Moyen
Actif-Actif	Secondes	Zero	Infrastructure complète en double	Élevé

Un plan DR non teste n'est pas un plan DR

La capacité DR dimensionnee sur le papier ne garantit pas le recovery réel. Sans test de basculement périodique (game day, chaos engineering), les surprises de capacité se decouvrent le jour de l'incident. Planifier au minimum un test DR complet par semestre.

Dimensionner la capacité DR¶

Actif-Actif : chaque site doit pouvoir absorber 100 % du trafic si l'autre tombe
Warm Standby : prévoir le temps de montee en charge pour atteindre 100 % (autoscaling)
Pilot Light : valider que le provisioning automatique tient les SLA de RTO declares
Backup & Restore : tester le temps réel de restauration avec les volumes de données actuels (pas ceux d'il y a 6 mois)

Modélisation what-if¶

L'analyse what-if répond a des questions du type : "que se passe-t-il si le trafic double soudainement ?"

Scenarios types¶

Scenario	Question	Impact capacitaire
Croissance x2	Doubler le trafic en 3 mois	CPU, connexions DB, bande passante
Perte d'une zone de dispo	AZ down	Capacité restante = 66 % si 3 AZ
Pic viral	x10 en 30 minutes	Auto-scaling, quotas, egress
Migration de base de données	Charge lecture x3 pendant migration	Read replicas, connexions
Activation d'un partenaire	+500 000 utilisateurs en J+1	Toutes dimensions

Méthodologie what-if¶

Partir de la baseline actuelle : utilisation moyenne et pic observe
Appliquer le multiplicateur du scenario : "trafic x2 = CPU x ?, connexions DB x ?"
Identifier les premiers goulots : quelle ressource sature en premier ?
Calculer le headroom restant : combien de temps avant saturation ?
Définir les actions preventives : pre-scaling, reserved instances supplémentaires, quotas

Outils de modélisation¶

Outil	Usage
Feuille de calcul (tableur)	Modélisation simple, ratio-based
Grafana What-If Analysis	Projections sur données historiques réelles
AWS Pricing Calculator	Estimation coût des scenarios de scaling
Azure Pricing Calculator	Idem Azure
Terraform + tfcost (Infracost)	Simulation coût d'un changement d'infra

Capacity review meetings¶

Les capacity reviews sont des réunions périodiques pour évaluer l'état de la capacité et prendre des décisions proactives.

Fréquence et participants¶

Fréquence	Type	Participants	Objectif
Mensuelle	Review opérationnelle	Ops, SRE, leads tech	Ajustements tactiques, alertes actives
Trimestrielle	Review planification	Ops, produit, architecture, finance	Projections 6-12 mois, budget
Annuelle	Review strategique	Direction tech, finance, métier	Budget annuel, roadmap infra

Agenda type d'une capacity review mensuelle¶

État de la capacité (10 min) : métriques actuelles vs seuils, alertes actives
Tendances (10 min) : évolution sur 30 jours, dérivé vs baseline
Incidents capacitaires (5 min) : revue des incidents lies à la capacité du mois
Actions en cours (5 min) : suivi des décisions du mois précédent
Décisions (10 min) : scaling a planifier, achats, optimisations, escalades

Décisions types et critères¶

Décision	Critère de déclenchement	Horizon d'action
Scale-out cloud	Utilisation > 70 % soutenu	Immédiat (jours)
Commande matériel on-premise	Prévision saturation a 90 jours	3-4 mois (délai livraison)
Achat reserved instances	Charge stable et prévisible confirmee	Avant fin du mois
Refactorisation architecturale	Limite structurelle identifiée	6-12 mois (planification)
Augmentation quota cloud	Prévision saturation a 30 jours	Demande immédiate

Documentez les décisions et leur rationnel

Une décision de ne pas scaler est aussi une décision valide — à condition d'être documentee. "Nous acceptons le risque X jusqu'en mars, date de la migration Y" est une position délibérée. Sans documentation, les décisions se perdent et les équipes recommencent les mêmes discussions.

Points clés¶

Le multi-cloud exige une normalisation des métriques et des outils d'agrégation dédiés
Le dimensionnement DR dépend directement des objectifs RTO/RPO — les tester régulièrement
L'analyse what-if anticipe les scenarios de stress avant qu'ils surviennent
Les capacity review meetings transforment les données techniques en décisions business
Documenter les décisions et leur rationale — y compris les décisions de ne pas agir