Observabilité¶

Services de monitoring, logging et capacity planning sur VMware vSphere.

Aria Opérations (ex-vRealize Opérations)¶

Aria Opérations est la plateforme de monitoring et de capacity planning de VMware. Elle collecte les métriques de l'ensemble de l'infrastructure vSphere et fournit des analyses predictives.

Cas d'usage : supervision de la performance des VMs et des hôtes, planification de capacité, optimisation des ressources, détection d'anomalies.

Fonctionnalités clés¶

Dashboards personnalisables avec métriques CPU, mémoire, stockage, réseau
Alertes basées sur des seuils statiques ou dynamiques (machine learning)
Capacity planning : prévision de saturation des clusters et recommandations de dimensionnement
Right-sizing : recommandations de redimensionnement des VMs sur/sous-dimensionnées
Compliance : vérification de conformité (hardening guides, benchmarks CIS)

Métriques importantes¶

Métrique	Description	Seuil d'alerte typique
CPU Ready (%)	Temps d'attente CPU de la VM	> 5%
Memory Ballooning	Mémoire récupérée par l'hyperviseur	> 0 Mo
Disk Latency (ms)	Latence d'accès au stockage	> 20 ms
Network Dropped Pkts	Paquets réseau abandonnes	> 0

Aria Opérations for Logs (ex-vRealize Log Insight)¶

Aria Opérations for Logs centralise les logs de l'infrastructure vSphere (ESXi, vCenter, NSX, vSAN) et des applications dans les VMs.

Cas d'usage : analyse post-incident, correlation d'événements, audit de sécurité, troubleshooting infrastructure.

Sources de logs¶

Syslog : ESXi envoie nativement ses logs via syslog
vCenter events : événements d'inventaire, alarmes, tâches
Agents : agent optionnel dans les VMs pour collecter les logs applicatifs

Rétention des logs

Configurez une politique de rétention adaptée a vos exigences de conformité. Exportez les logs vers un stockage longue durée (NFS, S3) pour les besoins d'audit.

Alarmes et événements vCenter¶

vCenter inclut un système d'alarmes natif qui surveille les objets de l'inventaire (hôtes, VMs, datastores, clusters).

Cas d'usage : alertes basiques sans outil tiers, notifications par email ou SNMP, déclenchement d'actions automatiques.

Alarmes prédéfinies courantes¶

Alarme	Objet	Déclencheur
Host connection state	Hôte	Hôte déconnecté ou non-repondant
Datastore usage on disk	Datastore	Espace utilisé > seuil (%)
VM CPU usage	VM	CPU > seuil pendant N minutes
Cluster HA failover in progress	Cluster	Basculement HA en cours

govc events -type alarm /DC1

Intégration avec le monitoring externe¶

L'écosystème VMware s'intégré avec les outils de monitoring open-source et tiers pour une observabilité unifiee.

Prometheus + vSphere Exporter¶

Le vmware_exporter collecte les métriques vSphere et les expose au format Prometheus.

Cas d'usage : dashboards Grafana unifies (VMs + conteneurs + applications), alerting via Alertmanager.

Outil	Rôle
vmware_exporter	Collecte les métriques vSphere via l'API
Prometheus	Stockage et requetage des métriques
Grafana	Visualisation et dashboards
Alertmanager	Routage et notification des alertes

SNMP¶

ESXi et vCenter supportent SNMP v2c et v3 pour l'intégration avec les outils de supervision classiques (Nagios, Zabbix, PRTG).

Stratégie d'observabilité

Pour une infrastructure VMware en production, combinez Aria Opérations (capacity planning et right-sizing) avec un stack Prometheus/Grafana (dashboards unifies et alerting avance).