Aller au contenu

Observabilité

Services de monitoring, logging et capacity planning sur VMware vSphere.


Aria Opérations (ex-vRealize Opérations)

Aria Opérations est la plateforme de monitoring et de capacity planning de VMware. Elle collecte les métriques de l'ensemble de l'infrastructure vSphere et fournit des analyses predictives.

Cas d'usage : supervision de la performance des VMs et des hôtes, planification de capacité, optimisation des ressources, détection d'anomalies.

Fonctionnalités clés

  • Dashboards personnalisables avec métriques CPU, mémoire, stockage, réseau
  • Alertes basées sur des seuils statiques ou dynamiques (machine learning)
  • Capacity planning : prévision de saturation des clusters et recommandations de dimensionnement
  • Right-sizing : recommandations de redimensionnement des VMs sur/sous-dimensionnées
  • Compliance : vérification de conformité (hardening guides, benchmarks CIS)

Métriques importantes

Métrique Description Seuil d'alerte typique
CPU Ready (%) Temps d'attente CPU de la VM > 5%
Memory Ballooning Mémoire récupérée par l'hyperviseur > 0 Mo
Disk Latency (ms) Latence d'accès au stockage > 20 ms
Network Dropped Pkts Paquets réseau abandonnes > 0

Aria Opérations for Logs (ex-vRealize Log Insight)

Aria Opérations for Logs centralise les logs de l'infrastructure vSphere (ESXi, vCenter, NSX, vSAN) et des applications dans les VMs.

Cas d'usage : analyse post-incident, correlation d'événements, audit de sécurité, troubleshooting infrastructure.

Sources de logs

  • Syslog : ESXi envoie nativement ses logs via syslog
  • vCenter events : événements d'inventaire, alarmes, tâches
  • Agents : agent optionnel dans les VMs pour collecter les logs applicatifs

Rétention des logs

Configurez une politique de rétention adaptée a vos exigences de conformité. Exportez les logs vers un stockage longue durée (NFS, S3) pour les besoins d'audit.

Alarmes et événements vCenter

vCenter inclut un système d'alarmes natif qui surveille les objets de l'inventaire (hôtes, VMs, datastores, clusters).

Cas d'usage : alertes basiques sans outil tiers, notifications par email ou SNMP, déclenchement d'actions automatiques.

Alarmes prédéfinies courantes

Alarme Objet Déclencheur
Host connection state Hôte Hôte déconnecté ou non-repondant
Datastore usage on disk Datastore Espace utilisé > seuil (%)
VM CPU usage VM CPU > seuil pendant N minutes
Cluster HA failover in progress Cluster Basculement HA en cours
govc events -type alarm /DC1

Intégration avec le monitoring externe

L'écosystème VMware s'intégré avec les outils de monitoring open-source et tiers pour une observabilité unifiee.

Prometheus + vSphere Exporter

Le vmware_exporter collecte les métriques vSphere et les expose au format Prometheus.

Cas d'usage : dashboards Grafana unifies (VMs + conteneurs + applications), alerting via Alertmanager.

Outil Rôle
vmware_exporter Collecte les métriques vSphere via l'API
Prometheus Stockage et requetage des métriques
Grafana Visualisation et dashboards
Alertmanager Routage et notification des alertes

SNMP

ESXi et vCenter supportent SNMP v2c et v3 pour l'intégration avec les outils de supervision classiques (Nagios, Zabbix, PRTG).

Stratégie d'observabilité

Pour une infrastructure VMware en production, combinez Aria Opérations (capacity planning et right-sizing) avec un stack Prometheus/Grafana (dashboards unifies et alerting avance).