Superviser et alerter¶
Stratégie de monitoring, SLO/SLI/SLA, alerting, dashboards et observabilité opérationnelle.
graph LR
A["Fondamentaux"] --> B["SLO/SLI/SLA"]
B --> C["Alerting"]
C --> D["Dashboards"]
D --> E["Stack"]
E --> F["Logs & Traces"]
F --> G["Cas avances"] Ce que vous allez apprendre¶
À la fin de ce tutoriel, vous serez capable de :
- Distinguer monitoring et observabilité, et comprendre les 3 piliers (logs, métriques, traces)
- Définir des SLI pertinents, fixer des SLO realistes et gérer les error budgets
- Concevoir une stratégie d'alerting qui evite la fatigue et les faux positifs
- Construire des dashboards efficaces avec les méthodes USE et RED
- Déployer une stack de référence (Prometheus, Grafana, Alertmanager)
- Centraliser les logs et les traces avec OpenTelemetry
- Explorer les approches avancees : AIOps, SLO-based alerting, optimisation des coûts
Prérequis¶
| Prérequis | Détail |
|---|---|
| Infrastructure | Administration système ou cloud de base |
| Réseau | Notions TCP/IP, HTTP, DNS |
| Conteneurs | Notions Docker/Podman pour la stack de référence |
Parcours¶
| Section | Contenu |
|---|---|
| Fondamentaux | 3 piliers, observabilité vs monitoring, signaux dores (latence, trafic, erreurs, saturation) |
| SLO/SLI/SLA | SLI pertinents, SLO realistes, error budgets, negociation SLA |
| Stratégie d'alerting | Alertes actionnables, sévérité, routing, fatigue d'alerte, escalade |
| Dashboards | USE method, RED method, dashboards par audience, anti-patterns |
| Stack de référence | Prometheus + Grafana + Alertmanager, service discovery. Datadog, Zabbix, VictoriaMetrics |
| Logs et traces | Structured logging, Loki, ELK, OpenTelemetry, Jaeger, context propagation |
| Cas avances | AIOps, anomaly détection, SLO-based alerting, coûts et rétention |