Aller au contenu

Service : Observabilité

Stack de monitoring complète : collecte de métriques, alerting et visualisation.

Vue d'ensemble

Propriété Valeur
Domaine System
Statut 🟡 En cours
Dépendances DNS

Produits

Produit Description Statut
Prometheus Collecte et stockage de métriques A venir
Grafana Dashboards et visualisation A venir
Alertmanager Alertes email, Slack, webhook A venir
Exporters node_exporter, cAdvisor — métriques système et conteneurs A venir
graph LR
    A["Exporters"] --> B["Prometheus"]
    B --> C["Alertmanager"]
    B --> D["Grafana"]
    D --> E["Dashboards"]

Composants d'exploitation

Composant Rôle dans le service Référence
Système Serveurs Prometheus, Grafana Système
Réseau Endpoints de scraping, accès dashboards Réseau
Stockage Rétention des métriques Stockage

Control Plane

Activation des produits

Déploiement des composants via IaC. Chaque produit est deployable independamment.

Interface de gestion

  • Grafana UI — Dashboards, alertes, data sources
  • Prometheus UI — Requêtes PromQL, targets
  • IaC — Configuration des scraping targets et règles d'alerte

Rôles et utilisateurs

Rôle Périmètre Permissions
Administrateur Stack complète Déployer, configurer les data sources et les règles
Opérateur Alerting Gérer les alertes, silences et escalades
Utilisateur Dashboards Consulter les dashboards et métriques

Cycle de vie

Déploiement

Installation de la stack Prometheus + Grafana + Alertmanager.

Opération

Maintenance des targets de scraping, mise à jour des dashboards, gestion de la rétention.

Recovery Plan

Sauvegarde des configurations Grafana (dashboards, datasources) et des règles Prometheus. Métriques re-collectables après redémarrage.

Decommissionnement

Arrêt des composants, export des dashboards, suppression des données.

SLA / SLO

Indicateur Cible
Disponibilité 99.9%
RPO 1h (métriques)
RTO 30min

A venir

Ce service est en cours de construction.