Procédures opérationnelles¶

Formaliser les processus recurrents pour les rendre prévisibles, reproductibles et transmissibles.

Différence entre runbook et procédure¶

Un runbook guide une action reactive (incident, alerte). Une procédure formalise une action planifiee, recurrente ou structurante. La procédure est exécutée en conditions normales, avec du temps pour vérifier chaque étape.

Critère	Runbook	Procédure
Contexte	Incident, urgence	Planifie, conditions normales
Déclencheur	Alerte, symptome	Calendrier, ticket de changement
Flexibilite	Faible (suivre les étapes)	Moyenne (adapter au contexte)
Validation	Vérification fonctionnelle	Checklist avant/pendant/après

Procédure de déploiement¶

Une bonne procédure de déploiement est reproductible par n'importe quel membre de l'équipe, même sans connaissance approfondie de l'application.

flowchart TD
    A["Pre-requis verifies"] --> B["Notification parties prenantes"]
    B --> C["Sauvegarde / snapshot"]
    C --> D["Deploiement"]
    D --> E{"Tests de fumee"}
    E -->|OK| F["Validation fonctionnelle"]
    E -->|KO| G["Rollback"]
    F --> H["Notification cloture"]
    G --> H

Structure type d'une procédure de déploiement¶

Pre-requis

Environnement cible identifié et accessible
Version a déployer validee en preprod
Fenêtre de maintenance confirmee avec les parties prenantes
Contacts d'escalade disponibles

Étapes

Notifier l'équipe et les utilisateurs impactes (modèle de message en annexe)
Prendre un snapshot ou une sauvegarde de l'état courant
Exécuter le déploiement selon le pipeline CI/CD ou le playbook prévu
Lancer les tests de fumee définis (liste en annexe)
Valider les métriques clés (latence, taux d'erreur, sante des instances)
Confirmer la clôture aupres des parties prenantes

Rollback

En cas d'échec des tests de fumee ou d'anomalie critique après déploiement, revenir à la version précédente en utilisant le snapshot ou la procédure de rollback spécifique au composant (voir procédure rollback — lien).

Une procédure non testée est une hypothèse

Chaque procédure doit être exécutée au moins une fois en environnement de preprod, dans les mêmes conditions que la production. Une procédure validee uniquement en théorie est une surprise en attente.

Maintenance planifiee¶

La maintenance planifiee suit un schéma avant/pendant/après pour éviter les oublis.

Checklist de maintenance¶

Avant la maintenance

Fenêtre de maintenance approuvee et communiquee
Sauvegardes récentes verifiees
Procédure de rollback préparée
Monitoring d'après-maintenance préparé
Contacts d'escalade identifiés

Pendant la maintenance

Actions tracees dans le ticket de changement
Communications aux équipes impactees si dépassement prévu
Vérification intermédiaire des indicateurs de sante

Après la maintenance

Tests fonctionnels valides
Métriques revenues à la normale
Documentation mise à jour si applicable
Ticket de changement clos avec compte-rendu

Bascule DR (Disaster Recovery)¶

La bascule DR est la procédure la plus critique et la moins souvent exécutée. Elle doit être documentee de façon exhaustive et testée périodiquement.

Phases d'une bascule¶

Phase	Description	Responsable
Declaration incident majeur	Confirmer que la bascule est nécessaire	Astreinte senior + management
Failover	Basculer le trafic vers le site DR	Équipe ops
Vérification	Valider que le site DR répond correctement	Équipe ops + QA
Communication	Informer les parties prenantes	Ops + management
Retour nominal	Rebasculer vers le site principal quand disponible	Équipe ops planifie

Testez la bascule DR au moins une fois par an

Une procédure DR non testée a 90% de chances d'échouer en situation réelle. Le test périodique est la seule façon de valider que la documentation et les systèmes sont coherents.

Onboarding ops¶

L'onboarding d'un nouvel opérateur ou ingénieur ops est lui-même un processus documentable. Un onboarding bien structure réduit le temps avant autonomie et la charge pour l'équipe existante.

Parcours progressif¶

Semaine	Objectifs	Livrables
1	Accès et outillage, lecture de la doc existante	Checklist accès complètes
2	Shadow sur incidents et astreintes, lecture des runbooks critiques	Questions documentees
3	Exécution supervisée des runbooks courants	Premier runbook enrichi
4	Autonomie sur incidents courants, escalade libre	Retour d'expérience écrit

Checklist accès jour 1¶

Accès VPN et bastion
Accès aux outils de monitoring (Grafana, Datadog, etc.)
Accès à la base documentaire (wiki, runbooks)
Accès aux systèmes de ticketing
Contact de l'astreinte en cours présenté

Demandez à chaque nouvel arrivant de corriger une documentation

Après sa première semaine, demandez-lui d'améliorer une page qu'il a trouvee incomplète ou incorrecte. Cela ancre la culture de contribution documentaire et produit des améliorations réelles.