Aller au contenu

Cas avances

Capacity planning multi-cloud, disaster recovery, modélisation what-if et capacity review meetings.


Capacity planning multi-cloud

Lorsque l'infrastructure s'etend sur plusieurs clouds (AWS + Azure, cloud public + cloud prive), le capacity planning doit agregger et normaliser des données hétérogènes.

Défis spécifiques

  • Métriques hétérogènes : chaque cloud utilise ses propres noms, unites et granularites
  • Latences inter-cloud : le réseau entre providers est un goulot d'étranglement supplémentaire
  • Coûts non comparables directement : les SKUs ne se correspondent pas 1:1
  • Limites de quota par provider : un quota atteint sur AWS ne peut pas être compense par Azure

Normalisation des unites

Métrique AWS Azure GCP Unite normalisee
CPU vCPU vCore vCPU vCPU
Stockage GiB (S3, EBS) GiB (Blob, Disk) GiB (GCS) GiB
Réseau sortant GB (egress) GB (egress) GB (egress) GB
Requêtes stockage GET/PUT requests Opérations Class A/B ops Milliers d'ops

Outils d'agrégation multi-cloud

Outil Fonctionnement
Datadog Agent unifie, métriques normalisees multi-cloud
Grafana Cloud Datasources multiples, dashboards unifies
CloudHealth / Apptio Agrégation coûts et capacité multi-cloud
OpenTelemetry Collector Pipeline de métriques vendor-neutral

Disaster Recovery et capacity planning

Le DR n'est pas qu'une question de sauvegarde — c'est aussi un problème de capacité.

Stratégies DR et leurs implications capacitaires

quadrantChart
    title Strategies DR : cout vs vitesse de recovery
    x-axis "Lent (RTO elevé)" --> "Rapide (RTO faible)"
    y-axis "Peu couteux" --> "Tres couteux"
    quadrant-1 Actif-Actif
    quadrant-2 Warm Standby
    quadrant-3 Backup & Restore
    quadrant-4 Pilot Light
    Actif-Actif: [0.90, 0.90]
    Warm Standby: [0.65, 0.60]
    Pilot Light: [0.40, 0.35]
    Backup & Restore: [0.10, 0.10]
Stratégie RTO RPO Capacité DR Coût relatif
Backup & Restore Heures - jours Heures Inexistante (provisioning à la demande) Minimal
Pilot Light 30 min - 2h Minutes Services core minimaux actifs Faible
Warm Standby 15 - 60 min Secondes Infrastructure partielle (50 %) Moyen
Actif-Actif Secondes Zero Infrastructure complète en double Élevé

Un plan DR non teste n'est pas un plan DR

La capacité DR dimensionnee sur le papier ne garantit pas le recovery réel. Sans test de basculement périodique (game day, chaos engineering), les surprises de capacité se decouvrent le jour de l'incident. Planifier au minimum un test DR complet par semestre.

Dimensionner la capacité DR

  • Actif-Actif : chaque site doit pouvoir absorber 100 % du trafic si l'autre tombe
  • Warm Standby : prévoir le temps de montee en charge pour atteindre 100 % (autoscaling)
  • Pilot Light : valider que le provisioning automatique tient les SLA de RTO declares
  • Backup & Restore : tester le temps réel de restauration avec les volumes de données actuels (pas ceux d'il y a 6 mois)

Modélisation what-if

L'analyse what-if répond a des questions du type : "que se passe-t-il si le trafic double soudainement ?"

Scenarios types

Scenario Question Impact capacitaire
Croissance x2 Doubler le trafic en 3 mois CPU, connexions DB, bande passante
Perte d'une zone de dispo AZ down Capacité restante = 66 % si 3 AZ
Pic viral x10 en 30 minutes Auto-scaling, quotas, egress
Migration de base de données Charge lecture x3 pendant migration Read replicas, connexions
Activation d'un partenaire +500 000 utilisateurs en J+1 Toutes dimensions

Méthodologie what-if

  1. Partir de la baseline actuelle : utilisation moyenne et pic observe
  2. Appliquer le multiplicateur du scenario : "trafic x2 = CPU x ?, connexions DB x ?"
  3. Identifier les premiers goulots : quelle ressource sature en premier ?
  4. Calculer le headroom restant : combien de temps avant saturation ?
  5. Définir les actions preventives : pre-scaling, reserved instances supplémentaires, quotas

Outils de modélisation

Outil Usage
Feuille de calcul (tableur) Modélisation simple, ratio-based
Grafana What-If Analysis Projections sur données historiques réelles
AWS Pricing Calculator Estimation coût des scenarios de scaling
Azure Pricing Calculator Idem Azure
Terraform + tfcost (Infracost) Simulation coût d'un changement d'infra

Capacity review meetings

Les capacity reviews sont des réunions périodiques pour évaluer l'état de la capacité et prendre des décisions proactives.

Fréquence et participants

Fréquence Type Participants Objectif
Mensuelle Review opérationnelle Ops, SRE, leads tech Ajustements tactiques, alertes actives
Trimestrielle Review planification Ops, produit, architecture, finance Projections 6-12 mois, budget
Annuelle Review strategique Direction tech, finance, métier Budget annuel, roadmap infra

Agenda type d'une capacity review mensuelle

  1. État de la capacité (10 min) : métriques actuelles vs seuils, alertes actives
  2. Tendances (10 min) : évolution sur 30 jours, dérivé vs baseline
  3. Incidents capacitaires (5 min) : revue des incidents lies à la capacité du mois
  4. Actions en cours (5 min) : suivi des décisions du mois précédent
  5. Décisions (10 min) : scaling a planifier, achats, optimisations, escalades

Décisions types et critères

Décision Critère de déclenchement Horizon d'action
Scale-out cloud Utilisation > 70 % soutenu Immédiat (jours)
Commande matériel on-premise Prévision saturation a 90 jours 3-4 mois (délai livraison)
Achat reserved instances Charge stable et prévisible confirmee Avant fin du mois
Refactorisation architecturale Limite structurelle identifiée 6-12 mois (planification)
Augmentation quota cloud Prévision saturation a 30 jours Demande immédiate

Documentez les décisions et leur rationnel

Une décision de ne pas scaler est aussi une décision valide — à condition d'être documentee. "Nous acceptons le risque X jusqu'en mars, date de la migration Y" est une position délibérée. Sans documentation, les décisions se perdent et les équipes recommencent les mêmes discussions.


Points clés

  • Le multi-cloud exige une normalisation des métriques et des outils d'agrégation dédiés
  • Le dimensionnement DR dépend directement des objectifs RTO/RPO — les tester régulièrement
  • L'analyse what-if anticipe les scenarios de stress avant qu'ils surviennent
  • Les capacity review meetings transforment les données techniques en décisions business
  • Documenter les décisions et leur rationale — y compris les décisions de ne pas agir