Procédures opérationnelles¶
Formaliser les processus recurrents pour les rendre prévisibles, reproductibles et transmissibles.
Différence entre runbook et procédure¶
Un runbook guide une action reactive (incident, alerte). Une procédure formalise une action planifiee, recurrente ou structurante. La procédure est exécutée en conditions normales, avec du temps pour vérifier chaque étape.
| Critère | Runbook | Procédure |
|---|---|---|
| Contexte | Incident, urgence | Planifie, conditions normales |
| Déclencheur | Alerte, symptome | Calendrier, ticket de changement |
| Flexibilite | Faible (suivre les étapes) | Moyenne (adapter au contexte) |
| Validation | Vérification fonctionnelle | Checklist avant/pendant/après |
Procédure de déploiement¶
Une bonne procédure de déploiement est reproductible par n'importe quel membre de l'équipe, même sans connaissance approfondie de l'application.
flowchart TD
A["Pre-requis verifies"] --> B["Notification parties prenantes"]
B --> C["Sauvegarde / snapshot"]
C --> D["Deploiement"]
D --> E{"Tests de fumee"}
E -->|OK| F["Validation fonctionnelle"]
E -->|KO| G["Rollback"]
F --> H["Notification cloture"]
G --> H Structure type d'une procédure de déploiement¶
Pre-requis
- Environnement cible identifié et accessible
- Version a déployer validee en preprod
- Fenêtre de maintenance confirmee avec les parties prenantes
- Contacts d'escalade disponibles
Étapes
- Notifier l'équipe et les utilisateurs impactes (modèle de message en annexe)
- Prendre un snapshot ou une sauvegarde de l'état courant
- Exécuter le déploiement selon le pipeline CI/CD ou le playbook prévu
- Lancer les tests de fumee définis (liste en annexe)
- Valider les métriques clés (latence, taux d'erreur, sante des instances)
- Confirmer la clôture aupres des parties prenantes
Rollback
En cas d'échec des tests de fumee ou d'anomalie critique après déploiement, revenir à la version précédente en utilisant le snapshot ou la procédure de rollback spécifique au composant (voir procédure rollback — lien).
Une procédure non testée est une hypothèse
Chaque procédure doit être exécutée au moins une fois en environnement de preprod, dans les mêmes conditions que la production. Une procédure validee uniquement en théorie est une surprise en attente.
Maintenance planifiee¶
La maintenance planifiee suit un schéma avant/pendant/après pour éviter les oublis.
Checklist de maintenance¶
Avant la maintenance
- Fenêtre de maintenance approuvee et communiquee
- Sauvegardes récentes verifiees
- Procédure de rollback préparée
- Monitoring d'après-maintenance préparé
- Contacts d'escalade identifiés
Pendant la maintenance
- Actions tracees dans le ticket de changement
- Communications aux équipes impactees si dépassement prévu
- Vérification intermédiaire des indicateurs de sante
Après la maintenance
- Tests fonctionnels valides
- Métriques revenues à la normale
- Documentation mise à jour si applicable
- Ticket de changement clos avec compte-rendu
Bascule DR (Disaster Recovery)¶
La bascule DR est la procédure la plus critique et la moins souvent exécutée. Elle doit être documentee de façon exhaustive et testée périodiquement.
Phases d'une bascule¶
| Phase | Description | Responsable |
|---|---|---|
| Declaration incident majeur | Confirmer que la bascule est nécessaire | Astreinte senior + management |
| Failover | Basculer le trafic vers le site DR | Équipe ops |
| Vérification | Valider que le site DR répond correctement | Équipe ops + QA |
| Communication | Informer les parties prenantes | Ops + management |
| Retour nominal | Rebasculer vers le site principal quand disponible | Équipe ops planifie |
Testez la bascule DR au moins une fois par an
Une procédure DR non testée a 90% de chances d'échouer en situation réelle. Le test périodique est la seule façon de valider que la documentation et les systèmes sont coherents.
Onboarding ops¶
L'onboarding d'un nouvel opérateur ou ingénieur ops est lui-même un processus documentable. Un onboarding bien structure réduit le temps avant autonomie et la charge pour l'équipe existante.
Parcours progressif¶
| Semaine | Objectifs | Livrables |
|---|---|---|
| 1 | Accès et outillage, lecture de la doc existante | Checklist accès complètes |
| 2 | Shadow sur incidents et astreintes, lecture des runbooks critiques | Questions documentees |
| 3 | Exécution supervisée des runbooks courants | Premier runbook enrichi |
| 4 | Autonomie sur incidents courants, escalade libre | Retour d'expérience écrit |
Checklist accès jour 1¶
- Accès VPN et bastion
- Accès aux outils de monitoring (Grafana, Datadog, etc.)
- Accès à la base documentaire (wiki, runbooks)
- Accès aux systèmes de ticketing
- Contact de l'astreinte en cours présenté
Demandez à chaque nouvel arrivant de corriger une documentation
Après sa première semaine, demandez-lui d'améliorer une page qu'il a trouvee incomplète ou incorrecte. Cela ancre la culture de contribution documentaire et produit des améliorations réelles.