Superviser et alerter¶

Stratégie de monitoring, SLO/SLI/SLA, alerting, dashboards et observabilité opérationnelle.

graph LR
    A["Fondamentaux"] --> B["SLO/SLI/SLA"]
    B --> C["Alerting"]
    C --> D["Dashboards"]
    D --> E["Stack"]
    E --> F["Logs & Traces"]
    F --> G["Cas avances"]

Ce que vous allez apprendre¶

À la fin de ce tutoriel, vous serez capable de :

Distinguer monitoring et observabilité, et comprendre les 3 piliers (logs, métriques, traces)
Définir des SLI pertinents, fixer des SLO realistes et gérer les error budgets
Concevoir une stratégie d'alerting qui evite la fatigue et les faux positifs
Construire des dashboards efficaces avec les méthodes USE et RED
Déployer une stack de référence (Prometheus, Grafana, Alertmanager)
Centraliser les logs et les traces avec OpenTelemetry
Explorer les approches avancees : AIOps, SLO-based alerting, optimisation des coûts

Prérequis¶

Prérequis	Détail
Infrastructure	Administration système ou cloud de base
Réseau	Notions TCP/IP, HTTP, DNS
Conteneurs	Notions Docker/Podman pour la stack de référence

Parcours¶

Section	Contenu
Fondamentaux	3 piliers, observabilité vs monitoring, signaux dores (latence, trafic, erreurs, saturation)
SLO/SLI/SLA	SLI pertinents, SLO realistes, error budgets, negociation SLA
Stratégie d'alerting	Alertes actionnables, sévérité, routing, fatigue d'alerte, escalade
Dashboards	USE method, RED method, dashboards par audience, anti-patterns
Stack de référence	Prometheus + Grafana + Alertmanager, service discovery. Datadog, Zabbix, VictoriaMetrics
Logs et traces	Structured logging, Loki, ELK, OpenTelemetry, Jaeger, context propagation
Cas avances	AIOps, anomaly détection, SLO-based alerting, coûts et rétention