Observabilité¶
Services de monitoring, logging et capacity planning sur VMware vSphere.
Aria Opérations (ex-vRealize Opérations)¶
Aria Opérations est la plateforme de monitoring et de capacity planning de VMware. Elle collecte les métriques de l'ensemble de l'infrastructure vSphere et fournit des analyses predictives.
Cas d'usage : supervision de la performance des VMs et des hôtes, planification de capacité, optimisation des ressources, détection d'anomalies.
Fonctionnalités clés¶
- Dashboards personnalisables avec métriques CPU, mémoire, stockage, réseau
- Alertes basées sur des seuils statiques ou dynamiques (machine learning)
- Capacity planning : prévision de saturation des clusters et recommandations de dimensionnement
- Right-sizing : recommandations de redimensionnement des VMs sur/sous-dimensionnées
- Compliance : vérification de conformité (hardening guides, benchmarks CIS)
Métriques importantes¶
| Métrique | Description | Seuil d'alerte typique |
|---|---|---|
| CPU Ready (%) | Temps d'attente CPU de la VM | > 5% |
| Memory Ballooning | Mémoire récupérée par l'hyperviseur | > 0 Mo |
| Disk Latency (ms) | Latence d'accès au stockage | > 20 ms |
| Network Dropped Pkts | Paquets réseau abandonnes | > 0 |
Aria Opérations for Logs (ex-vRealize Log Insight)¶
Aria Opérations for Logs centralise les logs de l'infrastructure vSphere (ESXi, vCenter, NSX, vSAN) et des applications dans les VMs.
Cas d'usage : analyse post-incident, correlation d'événements, audit de sécurité, troubleshooting infrastructure.
Sources de logs¶
- Syslog : ESXi envoie nativement ses logs via syslog
- vCenter events : événements d'inventaire, alarmes, tâches
- Agents : agent optionnel dans les VMs pour collecter les logs applicatifs
Rétention des logs
Configurez une politique de rétention adaptée a vos exigences de conformité. Exportez les logs vers un stockage longue durée (NFS, S3) pour les besoins d'audit.
Alarmes et événements vCenter¶
vCenter inclut un système d'alarmes natif qui surveille les objets de l'inventaire (hôtes, VMs, datastores, clusters).
Cas d'usage : alertes basiques sans outil tiers, notifications par email ou SNMP, déclenchement d'actions automatiques.
Alarmes prédéfinies courantes¶
| Alarme | Objet | Déclencheur |
|---|---|---|
| Host connection state | Hôte | Hôte déconnecté ou non-repondant |
| Datastore usage on disk | Datastore | Espace utilisé > seuil (%) |
| VM CPU usage | VM | CPU > seuil pendant N minutes |
| Cluster HA failover in progress | Cluster | Basculement HA en cours |
Intégration avec le monitoring externe¶
L'écosystème VMware s'intégré avec les outils de monitoring open-source et tiers pour une observabilité unifiee.
Prometheus + vSphere Exporter¶
Le vmware_exporter collecte les métriques vSphere et les expose au format Prometheus.
Cas d'usage : dashboards Grafana unifies (VMs + conteneurs + applications), alerting via Alertmanager.
| Outil | Rôle |
|---|---|
| vmware_exporter | Collecte les métriques vSphere via l'API |
| Prometheus | Stockage et requetage des métriques |
| Grafana | Visualisation et dashboards |
| Alertmanager | Routage et notification des alertes |
SNMP¶
ESXi et vCenter supportent SNMP v2c et v3 pour l'intégration avec les outils de supervision classiques (Nagios, Zabbix, PRTG).
Stratégie d'observabilité
Pour une infrastructure VMware en production, combinez Aria Opérations (capacity planning et right-sizing) avec un stack Prometheus/Grafana (dashboards unifies et alerting avance).