Aller au contenu

Fondamentaux du capacity planning

Pourquoi planifier la capacité, quelles ressources surveiller et quel vocabulaire utiliser.


Pourquoi planifier

Le capacity planning répond a une question simple : est-ce que mon infrastructure tiendra face à la demande future ? Sans réponse rigoureuse, deux scenarios extremes guettent l'équipe ops.

Conséquences business du sous-dimensionnement

  • Indisponibilite : saturation CPU, OOM killer, base de données qui refuse des connexions
  • Dégradation progressive : latences qui s'envolent avant la panne franche
  • Perte de revenus : chaque minute de downtime a un coût mesurable (e-commerce, SaaS)
  • Erosion de confiance : les SLA rates fragilisent les contrats et la relation client

Conséquences business du sur-dimensionnement

  • Factures cloud excessives : instances surdimensionnees actives 24h/24
  • Complexité inutile : clusters trop grands, maintenance alourdie
  • Capital immobilise : on-premise avec matériel sous-utilisé pendant des années
  • Fausse sécurité : marges énormes qui masquent des problèmes d'architecture

Sur-dimensionnement silencieux, sous-dimensionnement bruyant

Le sous-dimensionnement se voit immédiatement (alarmes, incidents, appels de nuit). Le sur-dimensionnement reste silencieux des mois — jusqu'à l'audit FinOps ou la coupure budgetaire. Les deux sont des échecs de planification.


Sous vs sur-dimensionnement

Dimension Sous-dimensionnement Sur-dimensionnement
Impact immédiat Pannes, latences, SLA rates Aucun visible
Impact financier Perte de revenus, pénalités Gaspillage budgetaire
Détection Alertes, incidents Audit, review trimestrielle
Correction Urgente (scaling en crise) Planifiee (rightsizing)
Risque residuel Perte de données possible Inertie organisationnelle

Ressources clés a surveiller

Quatre catégories de ressources constituent les goulots d'étranglement classiques.

graph TD
    A["Requete utilisateur"] --> B["CPU"]
    A --> C["RAM"]
    A --> D["Reseau"]
    B --> E["Saturation → latence"]
    C --> F["OOM → crash"]
    D --> G["Bandwidth → timeout"]
    E --> H["Stockage / IOPS"]
    F --> H
    G --> H
    H --> I["Incident"]

CPU

  • Indicateur principal : utilisation moyenne + percentile 95
  • Seuil de vigilance : 70 % en moyenne soutenue sur 5 minutes
  • Pieges : steal time (virtualisation), throttling (containers), single-thread bottleneck

RAM

  • Indicateur principal : mémoire disponible, swap utilisé
  • Seuil de vigilance : moins de 15 % de mémoire libre
  • Pieges : fragmentation, cache page agressif de Linux (pas un problème), fuites mémoire applicatives

Stockage et IOPS

  • Indicateur principal : utilisation disque (%), IOPS consommees, latence I/O (ms)
  • Seuil de vigilance : 80 % utilisation disque, latence > 10 ms sur SSD
  • Pieges : inodes epuises avant espace disque, RAID degradé qui plafonne les IOPS

Réseau

  • Indicateur principal : débit entrant/sortant, paquets perdus, latence RTT
  • Seuil de vigilance : 70 % de la bande passante nominale
  • Pieges : burst courts non captures par moyennes, egress cloud facturable

Vocabulaire essentiel

Terme Définition
Capacity Volume maximum qu'un système peut traiter sans dégradation
Demand Charge réelle ou prévue que le système doit absorber
Headroom Marge entre la demande actuelle et la capacité maximale
Saturation État ou la ressource est a 100 % — les requêtes attendent ou échouent
Throughput Nombre d'opérations traitees par unite de temps (req/s, MB/s)
Latency Temps de réponse pour une opération individuelle
Utilization Ratio demand / capacity exprime en pourcentage
Baseline Mesure de référence établie sur une periode representative
Headroom cible Marge réservée délibérément pour absorber les pics (ex : 30 %)

Loi de Little

Dans un système stable : L = λ × W — le nombre moyen de requêtes en cours (L) est egal au débit d'arrivee (λ) multiplié par le temps moyen de traitement (W). Doubler le temps de traitement double la file d'attente.


Points clés

  • Planifier la capacité est un processus continu, pas un événement annuel
  • Les quatre ressources (CPU, RAM, stockage, réseau) peuvent chacune devenir le goulot d'étranglement
  • Le vocabulaire précis (headroom, saturation, throughput) facilite la communication entre équipes
  • Chaque décision de dimensionnement a des conséquences business mesurables