Cas avances¶
Capacity planning multi-cloud, disaster recovery, modélisation what-if et capacity review meetings.
Capacity planning multi-cloud¶
Lorsque l'infrastructure s'etend sur plusieurs clouds (AWS + Azure, cloud public + cloud prive), le capacity planning doit agregger et normaliser des données hétérogènes.
Défis spécifiques¶
- Métriques hétérogènes : chaque cloud utilise ses propres noms, unites et granularites
- Latences inter-cloud : le réseau entre providers est un goulot d'étranglement supplémentaire
- Coûts non comparables directement : les SKUs ne se correspondent pas 1:1
- Limites de quota par provider : un quota atteint sur AWS ne peut pas être compense par Azure
Normalisation des unites¶
| Métrique | AWS | Azure | GCP | Unite normalisee |
|---|---|---|---|---|
| CPU | vCPU | vCore | vCPU | vCPU |
| Stockage | GiB (S3, EBS) | GiB (Blob, Disk) | GiB (GCS) | GiB |
| Réseau sortant | GB (egress) | GB (egress) | GB (egress) | GB |
| Requêtes stockage | GET/PUT requests | Opérations | Class A/B ops | Milliers d'ops |
Outils d'agrégation multi-cloud¶
| Outil | Fonctionnement |
|---|---|
| Datadog | Agent unifie, métriques normalisees multi-cloud |
| Grafana Cloud | Datasources multiples, dashboards unifies |
| CloudHealth / Apptio | Agrégation coûts et capacité multi-cloud |
| OpenTelemetry Collector | Pipeline de métriques vendor-neutral |
Disaster Recovery et capacity planning¶
Le DR n'est pas qu'une question de sauvegarde — c'est aussi un problème de capacité.
Stratégies DR et leurs implications capacitaires¶
quadrantChart
title Strategies DR : cout vs vitesse de recovery
x-axis "Lent (RTO elevé)" --> "Rapide (RTO faible)"
y-axis "Peu couteux" --> "Tres couteux"
quadrant-1 Actif-Actif
quadrant-2 Warm Standby
quadrant-3 Backup & Restore
quadrant-4 Pilot Light
Actif-Actif: [0.90, 0.90]
Warm Standby: [0.65, 0.60]
Pilot Light: [0.40, 0.35]
Backup & Restore: [0.10, 0.10] | Stratégie | RTO | RPO | Capacité DR | Coût relatif |
|---|---|---|---|---|
| Backup & Restore | Heures - jours | Heures | Inexistante (provisioning à la demande) | Minimal |
| Pilot Light | 30 min - 2h | Minutes | Services core minimaux actifs | Faible |
| Warm Standby | 15 - 60 min | Secondes | Infrastructure partielle (50 %) | Moyen |
| Actif-Actif | Secondes | Zero | Infrastructure complète en double | Élevé |
Un plan DR non teste n'est pas un plan DR
La capacité DR dimensionnee sur le papier ne garantit pas le recovery réel. Sans test de basculement périodique (game day, chaos engineering), les surprises de capacité se decouvrent le jour de l'incident. Planifier au minimum un test DR complet par semestre.
Dimensionner la capacité DR¶
- Actif-Actif : chaque site doit pouvoir absorber 100 % du trafic si l'autre tombe
- Warm Standby : prévoir le temps de montee en charge pour atteindre 100 % (autoscaling)
- Pilot Light : valider que le provisioning automatique tient les SLA de RTO declares
- Backup & Restore : tester le temps réel de restauration avec les volumes de données actuels (pas ceux d'il y a 6 mois)
Modélisation what-if¶
L'analyse what-if répond a des questions du type : "que se passe-t-il si le trafic double soudainement ?"
Scenarios types¶
| Scenario | Question | Impact capacitaire |
|---|---|---|
| Croissance x2 | Doubler le trafic en 3 mois | CPU, connexions DB, bande passante |
| Perte d'une zone de dispo | AZ down | Capacité restante = 66 % si 3 AZ |
| Pic viral | x10 en 30 minutes | Auto-scaling, quotas, egress |
| Migration de base de données | Charge lecture x3 pendant migration | Read replicas, connexions |
| Activation d'un partenaire | +500 000 utilisateurs en J+1 | Toutes dimensions |
Méthodologie what-if¶
- Partir de la baseline actuelle : utilisation moyenne et pic observe
- Appliquer le multiplicateur du scenario : "trafic x2 = CPU x ?, connexions DB x ?"
- Identifier les premiers goulots : quelle ressource sature en premier ?
- Calculer le headroom restant : combien de temps avant saturation ?
- Définir les actions preventives : pre-scaling, reserved instances supplémentaires, quotas
Outils de modélisation¶
| Outil | Usage |
|---|---|
| Feuille de calcul (tableur) | Modélisation simple, ratio-based |
| Grafana What-If Analysis | Projections sur données historiques réelles |
| AWS Pricing Calculator | Estimation coût des scenarios de scaling |
| Azure Pricing Calculator | Idem Azure |
| Terraform + tfcost (Infracost) | Simulation coût d'un changement d'infra |
Capacity review meetings¶
Les capacity reviews sont des réunions périodiques pour évaluer l'état de la capacité et prendre des décisions proactives.
Fréquence et participants¶
| Fréquence | Type | Participants | Objectif |
|---|---|---|---|
| Mensuelle | Review opérationnelle | Ops, SRE, leads tech | Ajustements tactiques, alertes actives |
| Trimestrielle | Review planification | Ops, produit, architecture, finance | Projections 6-12 mois, budget |
| Annuelle | Review strategique | Direction tech, finance, métier | Budget annuel, roadmap infra |
Agenda type d'une capacity review mensuelle¶
- État de la capacité (10 min) : métriques actuelles vs seuils, alertes actives
- Tendances (10 min) : évolution sur 30 jours, dérivé vs baseline
- Incidents capacitaires (5 min) : revue des incidents lies à la capacité du mois
- Actions en cours (5 min) : suivi des décisions du mois précédent
- Décisions (10 min) : scaling a planifier, achats, optimisations, escalades
Décisions types et critères¶
| Décision | Critère de déclenchement | Horizon d'action |
|---|---|---|
| Scale-out cloud | Utilisation > 70 % soutenu | Immédiat (jours) |
| Commande matériel on-premise | Prévision saturation a 90 jours | 3-4 mois (délai livraison) |
| Achat reserved instances | Charge stable et prévisible confirmee | Avant fin du mois |
| Refactorisation architecturale | Limite structurelle identifiée | 6-12 mois (planification) |
| Augmentation quota cloud | Prévision saturation a 30 jours | Demande immédiate |
Documentez les décisions et leur rationnel
Une décision de ne pas scaler est aussi une décision valide — à condition d'être documentee. "Nous acceptons le risque X jusqu'en mars, date de la migration Y" est une position délibérée. Sans documentation, les décisions se perdent et les équipes recommencent les mêmes discussions.
Points clés¶
- Le multi-cloud exige une normalisation des métriques et des outils d'agrégation dédiés
- Le dimensionnement DR dépend directement des objectifs RTO/RPO — les tester régulièrement
- L'analyse what-if anticipe les scenarios de stress avant qu'ils surviennent
- Les capacity review meetings transforment les données techniques en décisions business
- Documenter les décisions et leur rationale — y compris les décisions de ne pas agir