Aller au contenu

Superviser et alerter

Stratégie de monitoring, SLO/SLI/SLA, alerting, dashboards et observabilité opérationnelle.


graph LR
    A["Fondamentaux"] --> B["SLO/SLI/SLA"]
    B --> C["Alerting"]
    C --> D["Dashboards"]
    D --> E["Stack"]
    E --> F["Logs & Traces"]
    F --> G["Cas avances"]

Ce que vous allez apprendre

À la fin de ce tutoriel, vous serez capable de :

  • Distinguer monitoring et observabilité, et comprendre les 3 piliers (logs, métriques, traces)
  • Définir des SLI pertinents, fixer des SLO realistes et gérer les error budgets
  • Concevoir une stratégie d'alerting qui evite la fatigue et les faux positifs
  • Construire des dashboards efficaces avec les méthodes USE et RED
  • Déployer une stack de référence (Prometheus, Grafana, Alertmanager)
  • Centraliser les logs et les traces avec OpenTelemetry
  • Explorer les approches avancees : AIOps, SLO-based alerting, optimisation des coûts

Prérequis

Prérequis Détail
Infrastructure Administration système ou cloud de base
Réseau Notions TCP/IP, HTTP, DNS
Conteneurs Notions Docker/Podman pour la stack de référence

Parcours

Section Contenu
Fondamentaux 3 piliers, observabilité vs monitoring, signaux dores (latence, trafic, erreurs, saturation)
SLO/SLI/SLA SLI pertinents, SLO realistes, error budgets, negociation SLA
Stratégie d'alerting Alertes actionnables, sévérité, routing, fatigue d'alerte, escalade
Dashboards USE method, RED method, dashboards par audience, anti-patterns
Stack de référence Prometheus + Grafana + Alertmanager, service discovery. Datadog, Zabbix, VictoriaMetrics
Logs et traces Structured logging, Loki, ELK, OpenTelemetry, Jaeger, context propagation
Cas avances AIOps, anomaly détection, SLO-based alerting, coûts et rétention