Aller au contenu

Procédures opérationnelles

Formaliser les processus recurrents pour les rendre prévisibles, reproductibles et transmissibles.


Différence entre runbook et procédure

Un runbook guide une action reactive (incident, alerte). Une procédure formalise une action planifiee, recurrente ou structurante. La procédure est exécutée en conditions normales, avec du temps pour vérifier chaque étape.

Critère Runbook Procédure
Contexte Incident, urgence Planifie, conditions normales
Déclencheur Alerte, symptome Calendrier, ticket de changement
Flexibilite Faible (suivre les étapes) Moyenne (adapter au contexte)
Validation Vérification fonctionnelle Checklist avant/pendant/après

Procédure de déploiement

Une bonne procédure de déploiement est reproductible par n'importe quel membre de l'équipe, même sans connaissance approfondie de l'application.

flowchart TD
    A["Pre-requis verifies"] --> B["Notification parties prenantes"]
    B --> C["Sauvegarde / snapshot"]
    C --> D["Deploiement"]
    D --> E{"Tests de fumee"}
    E -->|OK| F["Validation fonctionnelle"]
    E -->|KO| G["Rollback"]
    F --> H["Notification cloture"]
    G --> H

Structure type d'une procédure de déploiement

Pre-requis

  • Environnement cible identifié et accessible
  • Version a déployer validee en preprod
  • Fenêtre de maintenance confirmee avec les parties prenantes
  • Contacts d'escalade disponibles

Étapes

  1. Notifier l'équipe et les utilisateurs impactes (modèle de message en annexe)
  2. Prendre un snapshot ou une sauvegarde de l'état courant
  3. Exécuter le déploiement selon le pipeline CI/CD ou le playbook prévu
  4. Lancer les tests de fumee définis (liste en annexe)
  5. Valider les métriques clés (latence, taux d'erreur, sante des instances)
  6. Confirmer la clôture aupres des parties prenantes

Rollback

En cas d'échec des tests de fumee ou d'anomalie critique après déploiement, revenir à la version précédente en utilisant le snapshot ou la procédure de rollback spécifique au composant (voir procédure rollback — lien).

Une procédure non testée est une hypothèse

Chaque procédure doit être exécutée au moins une fois en environnement de preprod, dans les mêmes conditions que la production. Une procédure validee uniquement en théorie est une surprise en attente.


Maintenance planifiee

La maintenance planifiee suit un schéma avant/pendant/après pour éviter les oublis.

Checklist de maintenance

Avant la maintenance

  • Fenêtre de maintenance approuvee et communiquee
  • Sauvegardes récentes verifiees
  • Procédure de rollback préparée
  • Monitoring d'après-maintenance préparé
  • Contacts d'escalade identifiés

Pendant la maintenance

  • Actions tracees dans le ticket de changement
  • Communications aux équipes impactees si dépassement prévu
  • Vérification intermédiaire des indicateurs de sante

Après la maintenance

  • Tests fonctionnels valides
  • Métriques revenues à la normale
  • Documentation mise à jour si applicable
  • Ticket de changement clos avec compte-rendu

Bascule DR (Disaster Recovery)

La bascule DR est la procédure la plus critique et la moins souvent exécutée. Elle doit être documentee de façon exhaustive et testée périodiquement.

Phases d'une bascule

Phase Description Responsable
Declaration incident majeur Confirmer que la bascule est nécessaire Astreinte senior + management
Failover Basculer le trafic vers le site DR Équipe ops
Vérification Valider que le site DR répond correctement Équipe ops + QA
Communication Informer les parties prenantes Ops + management
Retour nominal Rebasculer vers le site principal quand disponible Équipe ops planifie

Testez la bascule DR au moins une fois par an

Une procédure DR non testée a 90% de chances d'échouer en situation réelle. Le test périodique est la seule façon de valider que la documentation et les systèmes sont coherents.


Onboarding ops

L'onboarding d'un nouvel opérateur ou ingénieur ops est lui-même un processus documentable. Un onboarding bien structure réduit le temps avant autonomie et la charge pour l'équipe existante.

Parcours progressif

Semaine Objectifs Livrables
1 Accès et outillage, lecture de la doc existante Checklist accès complètes
2 Shadow sur incidents et astreintes, lecture des runbooks critiques Questions documentees
3 Exécution supervisée des runbooks courants Premier runbook enrichi
4 Autonomie sur incidents courants, escalade libre Retour d'expérience écrit

Checklist accès jour 1

  • Accès VPN et bastion
  • Accès aux outils de monitoring (Grafana, Datadog, etc.)
  • Accès à la base documentaire (wiki, runbooks)
  • Accès aux systèmes de ticketing
  • Contact de l'astreinte en cours présenté

Demandez à chaque nouvel arrivant de corriger une documentation

Après sa première semaine, demandez-lui d'améliorer une page qu'il a trouvee incomplète ou incorrecte. Cela ancre la culture de contribution documentaire et produit des améliorations réelles.