Référentiels et ontologies¶

Structurer l'information pour qu'elle soit trouvable et réutilisable à l'échelle — sans structure, la connaissance accumule sans capitaliser.

Le problème de la connaissance non structurée¶

Une base de connaissances sans structure est un entrepôt dans le noir : l'information est la, mais on ne peut pas la trouver. A petite échelle, la mémoire individuelle compense — on sait a peu pres ou chercher, on se souvient d'avoir vu quelque chose sur tel sujet. À l'échelle d'une DSI de taille moyenne, avec des dizaines de systèmes, des centaines de documents et des équipes tournantes, la mémoire individuelle ne suffit plus.

La structuration de l'information passe par plusieurs niveaux d'abstraction : le vocabulaire contrôle (nommer les choses de façon cohérente), les taxonomies (les organiser en hiérarchies), les thesaurus (exprimer les relations entre concepts), et les ontologies (formaliser la semantique jusqu'au raisonnement automatise).

Ces niveaux ne s'excluent pas — ils s'empilent. Une CMDB bien structurée mobilise un vocabulaire contrôle (les types de CI), une taxonomie (les catégories d'infrastructure), des relations typees (dépend-de, heberge, déployé-sur) qui s'approchent d'une ontologie opérationnelle.

Note

Un référentiel qui n'est pas maintenu est pire que pas de référentiel — il crée de la fausse confiance. L'équipe suppose que l'information est à jour ; elle prend des décisions basées sur des données incorrectes. Un référentiel absent est reconnu comme un manque ; un référentiel obsolète est traite comme une vérité.

Vocabulaire contrôle¶

L'importance de la terminologie partagee¶

Les ambiguites terminologiques ont un coût direct en DSI. "Application", "service", "composant", "module" : ces termes sont utilisés de façon interchangeable dans la plupart des organisations, avec des définitions implicites qui varient selon les equipiers, les équipes et les contextes. Deux équipes qui parlent du même objet avec des termes différents, ou de choses différentes avec le même terme — le terrain idéal pour les malentendus, les incidents et les pertes de temps.

Exemple concret : dans une DSI, "service" désigné pour l'équipe infrastructure un processus système (un daemon), pour l'équipe architecture un microservice dans le sens DDD, et pour la direction métier une prestation fournie aux utilisateurs. Un ticket de "dégradation de service" peut traverser trois équipes qui ne parlent pas de la même chose sans que personne ne s'en rende compte.

Un vocabulaire contrôle est un ensemble de termes autorises avec leurs définitions, leurs relations d'équivalence (synonymes) et leurs contextes d'usage. Il ne prétend pas être complet — il prétend être cohérent.

Les glossaires techniques¶

Le glossaire technique est la forme la plus simple de vocabulaire contrôle. Il liste les termes utilisés dans un domaine, avec :

La définition de référence
Les synonymes toleres (et celui qui est préféré)
Les termes a éviter et pourquoi
Les contextes d'usage
Des exemples concrets

Un glossaire vivant est maintenable. Un glossaire statique devient obsolète. La gouvernance du glossaire doit être explicite : qui peut ajouter un terme ? qui valide une définition ? comment signale-t-on une ambiguite ?

Les ambiguites coûteuses¶

Quelques exemples d'ambiguites terminologiques fréquentes dans les DSI et leurs conséquences :

Terme ambigu	Interpretation A	Interpretation B	Conséquence possible
Disponibilité	Le système est accessible	Les données sont accessibles	SLO mesurant la mauvaise chose
Service	Processus système	Microservice / capacité métier	Architecture mal documentee
Environnement	Namespace Kubernetes	Cluster complet (dev/staging/prod)	Incident de promotion en mauvais env
Criticite	Impact métier si le système tombe	Priorité de traitement du ticket	Mauvaise priorisation des incidents
Données sensibles	Données personnelles (RGPD)	Données confidentielles (stratégies)	Mesures de protection inadequates
Propriétaire	Responsable technique	Responsable métier / product owner	Ambiguites dans les escalades

Taxonomies¶

Principe et conception¶

Une taxonomie est une hiérarchie de catégories permettant de classer des objets. Elle répond à la question : "Dans quelle catégorie est ce que je cherche ?" Une taxonomie bien conçue est exhaustive (tout objet peut être classe), exclusive (chaque objet appartient a une seule catégorie), et equilibree (les catégories de même niveau ont une granularité comparable).

La conception d'une taxonomie commence par les objets a classer, pas par la hiérarchie elle-même. L'erreur classique est de commencer par la structure et d'y "forcer" les objets — produisant des catégories trop génériques ("Divers", "Autres") qui absorbent tout ce qui ne rentre pas ailleurs et deviennent inutiles.

Processus de conception :

Inventorier les objets a classer (échantillon representatif)
Les grouper intuitivement par similarite (card sorting)
Nommer les groupes en verifiant que le nom est suffisamment distinctif
Vérifier l'exhaustivité et l'exclusivite
Iterer avec les utilisateurs cibles
Documenter les règles de classification pour les cas limites

Les taxonomies sont la structure de base des catalogues. En DSI, les catalogues les plus critiques a structurer :

Le catalogue de services — quels services l'IT fournit aux métiers, avec leurs caractéristiques (niveau de service, responsable, modalites de demande). La taxonomie structure les familles de services : infrastructure, applicatif, données, sécurité, support.

La CMDB — la base de gestion des configurations est fondamentalement une taxonomie des composants du SI : types de CI (Configuration Item), leurs attributs et leurs relations. Une CMDB sans taxonomie rigoureuse devient un dump d'inventaire inutilisable.

Le catalogue d'API — les API exposees, groupees par domaine fonctionnel et par type (publiques, internes, partenaires). La taxonomie facilite la découverte et evite la duplication.

Exemples de taxonomies IT¶

Taxonomie d'une CMDB (niveau 1 / niveau 2) :

graph TD
    IP["Infrastructure physique"]
    IP --> SRV["Serveurs"]
    SRV --> SRVC["Serveurs de calcul"]
    SRV --> SRVS["Serveurs de stockage"]
    SRV --> SRVV["Serveurs de virtualisation"]
    IP --> RES["Reseau"]
    RES --> SW["Commutateurs (switch)"]
    RES --> RT["Routeurs"]
    RES --> EQS["Equipements de securite"]
    IP --> STK["Stockage"]
    STK --> SAN["SAN"]
    STK --> NAS["NAS"]
    STK --> SOBJ["Stockage objet"]

    IL["Infrastructure logique"]
    IL --> VM["Machines virtuelles"]
    IL --> CTN["Conteneurs"]
    IL --> NS["Namespaces Kubernetes"]
    IL --> VNET["Reseaux virtuels<br/>(VLAN, VPC)"]

    APP["Applications"]
    APP --> AMET["Applications metier"]
    AMET --> ERP["ERP"]
    AMET --> CRM["CRM"]
    AMET --> ASPE["Applications specifiques"]
    APP --> ATECH["Applications techniques"]
    ATECH --> MW["Middleware"]
    ATECH --> BDD["Bases de donnees"]
    ATECH --> MON["Outils de monitoring"]

Tip

Une taxonomie doit être revisee périodiquement — au moins tous les 18 mois. L'introduction de nouvelles technologies (cloud, containers, serverless) crée des objets qui ne rentrent pas dans les catégories existantes et finissent dans "Divers". Planifier la maintenance de la taxonomie au même titre que la maintenance du référentiel.

Thesaurus¶

Relations entre concepts¶

Un thesaurus va plus loin qu'un vocabulaire contrôle en formalisant les relations entre les termes. Il est le standard de référence pour les systèmes documentaires et les moteurs de recherche specialises. Le format SKOS (Simple Knowledge Organization System, W3C) en est la formalisation moderne.

Trois types de relations fondamentales :

Relations hierarchiques (BT/NT — Broader/Narrower Term) Exprime les relations de generalisation et specialisation. Exemple : Conteneur NT Pod Kubernetes NT Init container

Relations associatives (RT — Related Term) Exprime les relations semantiques non hierarchiques. Exemple : Circuit breaker RT Resilience RT Timeout RT Bulkhead

Relations d'équivalence (UF/USE — Used For / Use) Exprime les synonymes et les termes preferes. Exemple : Microservice USE Service applicatif (terme préféré) ; Nano-service UF Microservice

Usage dans la recherche¶

Un moteur de recherche integrant un thesaurus peut étendre automatiquement les requêtes. Une recherche sur "disponibilité" retrouve aussi les documents utilisant "SLA", "uptime", "SLO" si ces termes sont marques comme associes dans le thesaurus. La recherche devient robuste aux variations terminologiques des auteurs.

En DSI, le thesaurus est particulièrement utile pour :

Les bases de connaissances avec des auteurs multiples aux conventions variees
La recherche dans des corpus historiques avec des terminologies datees
Les systèmes qui aggregent des sources hétérogènes (tickets ITSM + wiki + documentation technique)

Ontologies¶

De la taxonomie à l'ontologie¶

Une taxonomie classe. Une ontologie décrit. La différence est la richesse semantique : une ontologie formalise non seulement les catégories et les relations, mais aussi les règles qui gouvernent ces relations, permettant un raisonnement automatise.

Une ontologie comprend :

Des classes — les types d'entités (Application, Service, Composant, Infrastructure)
Des propriétés — les attributs et les relations entre classes (déployé-sur, dépend-de, expose, consomme)
Des instances — les individus concrets (l'application "Facturation v2", le service "auth-service")
Des axiomes — les contraintes et règles (un Service doit appartenir a exactement un Domaine, un CI critique doit avoir un propriétaire)

OWL et SKOS simplifie¶

SKOS (Simple Knowledge Organization System) est le standard W3C pour les vocabulaires contrôles, taxonomies et thesaurus. Il est adapté aux cas où la classification et la navigation sont les objectifs principaux. Extensible en XML/RDF, il est lisible par les moteurs de recherche semantique.

OWL (Web Ontology Language) est le standard W3C pour les ontologies formelles avec raisonnement. Il permet d'exprimer des contraintes complexes et de deduire des faits implicites. Il est plus puissant mais aussi plus complexe à maintenir. En pratique, la plupart des DSI n'ont pas besoin d'OWL — SKOS suffit pour les besoins de knowledge management.

graph TD
    Vocabulaire["Vocabulaire controle\n(termes + definitions)"]
    Taxonomie["Taxonomie\n(hierarchie de categories)"]
    Thesaurus["Thesaurus\n(relations BT/NT/RT/UF)"]
    Ontologie["Ontologie\n(classes + proprietes + axiomes + raisonnement)"]

    Vocabulaire --> Taxonomie
    Taxonomie --> Thesaurus
    Thesaurus --> Ontologie

    style Vocabulaire fill:#e8f5e9
    style Taxonomie fill:#c8e6c9
    style Thesaurus fill:#a5d6a7
    style Ontologie fill:#81c784

Quand une ontologie est justifiee¶

Une ontologie complète (OWL) est justifiee dans peu de cas en DSI :

Les catalogues de données d'entreprise avec des schémas complexes et des lineages métier critiques
Les CMDB de grande échelle avec des règles d'association complexes et du raisonnement automatise
Les systèmes de gestion des risques avec des chaînes de dépendances et d'impact formalisées

Pour la plupart des besoins de knowledge management, une taxonomie bien maintenue avec un thesaurus suffit — et est infiniment plus facile à maintenir.

Metadata management¶

Schémas de metadonnees¶

Les metadonnees sont les données sur les données — les informations qui décrivent un artefact sans être son contenu principal. Elles sont essentielles pour la découverte, le gouvernance et la maintenance.

Un schéma de metadonnees standardise garantit que les mêmes informations sont collectees de façon cohérente pour tous les artefacts d'un même type. Sans schéma, chaque créateur d'artefact invente ses propres champs — produisant une hétérogénéité qui rend l'agrégation et la recherche impossibles.

Dublin Core est le schéma de metadonnees générique de référence (15 éléments : title, creator, subject, description, publisher, contributor, date, type, format, identifier, source, language, relation, coverage, rights). Il est adapté aux documents généraux. Pour les contextes IT spécifiques, des schémas etendus sont nécessaires.

Metadonnees pour les artefacts DSI¶

Type d'artefact	Metadonnees indispensables
Document / article	Titre, auteur, date de création, date de dernière revue, version, tags, statut
Service / API	Propriétaire, domaine, SLO, version, environnements, dépendances, contrat
Dataset	Propriétaire, classification, schéma, lineage, qualité, date de fraicheur
CI (CMDB)	Type, propriétaire technique, propriétaire métier, criticite, environnement
Composant logiciel	Équipe, langage, version, repo, pipeline, dernier déploiement, CVE status

Tagging et gouvernance des tags¶

Le tagging libre (chaque auteur invente ses tags) produit une explosion combinatoire : "kubernetes", "k8s", "Kubernetes", "K8S", "kube" pour le même concept — et donc un moteur de recherche qui ne consolide pas les résultats.

La gouvernance des tags passe par :

Un vocabulaire de tags contrôle (liste des tags autorises avec leurs définitions)
Des tags obligatoires par type d'artefact (le tag domaine est obligatoire pour tout service)
Des règles de validation à la création (impossible de publier sans les tags obligatoires)
Une revue périodique des tags "orphelins" (utilisés une seule fois, suspects)

Catalogues de données¶

DataHub, Amundsen, OpenMetadata¶

Les catalogues de données sont des plateformes specialisees dans la découverte et la gouvernance des assets data à l'échelle. Ils combinent metadata management, data lineage et data quality en un point d'entree unique.

DataHub (LinkedIn, open source) — catalogue mature avec un modèle de metadonnees riche et extensible. Points forts : lineage graphe interactif, integrations nombreuses (Spark, dbt, Airflow, BigQuery, Snowflake), UI avancee. Point de vigilance : complexité d'installation et de maintenance pour les équipes sans expertise.

Amundsen (Lyft, open source) — focus sur la découverte par les data users. UI orientée recherche et popularité des datasets. S'appuie sur Neo4j pour le graphe de connaissances. Plus simple qu'un DataHub complet mais moins extensible.

OpenMetadata (open source) — projet plus récent mais avec un périmètre large : catalogue, quality, lineage, collaboration. API-first avec un modèle de metadonnees ouvert. Adoption croissante pour les nouvelles mises en œuvre.

Outil	Points forts	Points de vigilance	Contexte adapté
DataHub	Lineage riche, integrations larges	Complexe a opérer, courbe d'apprentissage	Équipes data matures, écosystème large
Amundsen	Simple, UI découverte	Moins extensible, évolutions lentes	Petites équipes data, MVP rapide
OpenMetadata	API-first, périmètre large, actif	Moins mature sur certains connecteurs	Nouvelles mises en œuvre, flexibilite

Data lineage¶

Le data lineage trace l'origine et la transformation des données de leur source jusqu'à leur consommation. Il répond aux questions : "D'ou vient cette métrique ?", "Quels pipelines utilisent cette table ?", "Si cette source change, quels dashboards sont impactes ?"

Le lineage est critique pour :

L'analyse d'impact avant de modifier un schéma ou une source
Le diagnostic d'anomalies ("les chiffres de vente semblent incorrects — retracez le lineage")
La conformité (savoir précis?ment quelles données personnelles passent par quels traitements)
La confiance des utilisateurs dans les rapports et les métriques

Data quality intégration¶

Un catalogue de données sans informations de qualité est un catalogue de promesses non verifiees. Les dimensions de qualité a capturer :

Completude — taux de valeurs manquantes par colonne
Fraicheur — anciennete de la dernière mise à jour
Validite — conformité aux règles de format et de contrainte
Cohérence — alignement avec d'autres sources de référence
Unicite — absence de doublons

Les outils comme Great Expectations, dbt tests, ou Soda s'intègrent avec les catalogues pour alimenter ces métriques automatiquement.

Applications : référentiels opérationnels DSI¶

La CMDB comme ontologie opérationnelle¶

La CMDB (Configuration Management Database) est le référentiel de référence de la gestion opérationnelle. Elle est, en pratique, une ontologie opérationnelle : elle définit des classes de CI (Configuration Items), leurs propriétés et leurs relations.

La valeur de la CMDB est proportionnelle a sa qualité : une CMDB incomplète ou desynchronisee de la réalité est inutile pour l'analyse d'impact et dangereuse pour la prise de décision. Les problèmes classiques :

Discovery incomplet — des composants ne sont pas enregistres car découverts manuellement
Relations non maintenues — les dépendances changent avec les évolutions, la CMDB ne suit pas
Doublon de CI — le même composant existe en plusieurs entrees avec des noms différents
Propriétés non renseignees — les champs critiques (propriétaire, criticite) sont vides ou génériques

La gouvernance d'une CMDB efficace nécessité un propriétaire dedié, une automatisation du discovery (intégration avec les outils de provisioning IaC, les plateformes cloud et Kubernetes), et des revues périodiques de cohérence.

Le catalogue d'API¶

Le catalogue d'API est le référentiel de toutes les API exposees — internes, partenaires et publiques. Il sert à la découverte (quelles APIs existent, pour quels usages), à la gouvernance (conformité aux standards, cycle de vie des versions) et à la sécurité (surface d'exposition, contrôle d'accès).

Un catalogue d'API efficace contient :

La description fonctionnelle de chaque API (ce qu'elle fait, pour qui)
La spécification technique (OpenAPI / AsyncAPI)
Les informations de SLO et de disponibilité
Le propriétaire et l'équipe responsable
L'état de depreciation et le calendrier de sunsetting
Les consommateurs connus (pour l'analyse d'impact des changements)

Outils : Backstage (Spotify), Kong Konnect, Gravitee, Apicurio.

Le référentiel d'architecture¶

Le référentiel d'architecture (parfois appelé "cartographie du SI") est la vue consolidee de l'ensemble des composants applicatifs, de leurs interactions et de leur alignement avec les capacités métier.

Il répond aux questions strategiques : "Quels systèmes supportent le processus Commande-a-Livraison ?", "Quelles applications devront migrer si on abandonne ce fournisseur ?", "Quels composants ne sont plus supportes ?"

Outils : ArchiMate + EA tools (Sparx, Mega Hopex, LeanIX), Backstage pour le composant technique, draw.io pour les vues légères.

Warning

Un référentiel d'architecture maintenu à la main dans PowerPoint ou Visio est un référentiel mort-né. Sans lien avec les sources de vérité (CMDB, catalogues, repos), il se desynchronise à la vitesse des changements du SI. Un référentiel d'architecture vivant est alimente par des sources automatiques et enrichi manuellement pour les informations de gouvernance que les outils ne peuvent pas deduire seuls.