Il était une fois, dans une région lointaine, une manufacture d’horlogerie qui souhaitait présenter à un seigneur arrivant à sa porte, le détail de l’ensemble des montres qu’elle produisait afin qu’il puisse faire le choix de son prochain garde-temps. L’intendant de la manufacture vint consulter les différents corps de métier : le maitre horloger lui donna la liste des montres, le joaillier la caratage des rubis, le tanneur l’origine des cuirs et le ferronnier la qualité des alliages. Mais personne n’était en mesure de prodiguer un document recensant l’ensemble des informations. Incapable de faire son choix sans vue globale, le seigneur tourna les talons et repartit bredouille, demandant à avoir tous les éléments à son retour dans 6 mois.

Avoir une donnée produit de qualité et bien structurée est aujourd’hui nécessaire pour les entreprises, qui font face à un volume exponentiel de données pour 2 raisons :

  • La data est omniprésente : données fournisseurs, clients, produits, indicateurs de productions, images promotionnelles, certificats, communication...
  • Les applicatifs collectant de la data sont de plus en plus faciles à utiliser, dans tous les domaines, augmentant ainsi le volume de données entrantes.


Une étude 2023 a estimé que une donnée de mauvaise qualité ou mal structurée impacte en moyenne 31% du revenu d’une entreprise. Ce volume doit donc être absorbé par une excellente gestion de la donnée, traitée et nettoyée en continu. En 2021, une étude des données stockées sur la plateforme Integrate a montré que sur les 3.64 millions de leads commerciaux enregistrés, 45% avaient été perdus à cause de données incomplètes ou mal utilisées. 73% l’étaient à cause de doublons de données. La plupart des erreurs de données ont des causes simples à corriger, pourvu qu’une organisation de la donnée soit mise en place.

Quelles données doit-on traiter ? Comment les valoriser ? Et comment s’assurer de leur qualité ?

1. Cadrer : « En toute chose il faut considérer la fin »

Afin de pallier ce problème, l’intendant lança un grand projet de rédaction d’un document de présentation unique. Il demanda à rencontrer le seigneur en son château afin de recenser les informations dont il avait absolument besoin pour faire son choix, celles qui étaient accessoires et celles qui ne lui étaient pas nécessaires. Puis, l’intendant convia ses employés en assemblée pour recueillir leurs recommandations et les informations dont ils avaient besoin pour travailler. A la fin de ces échanges, notre intendant obtint une longue liste d’informations à ajouter à son document.


Pour savoir quelle information récolter, et s’assurer de sa qualité, il faut définir :

  • par qui
  • pourquoi
  • et comment elle sera utilisée.En effet, la qualité de la donnée ne peut être estimée que par un expert connaissant parfaitement la donnée métier.

Parmi les projets que nous avons menés chez un grand acteur du luxe, les caractères « XX » étaient utilisés comme description de taille. Alors que l’intuition d’un correcteur pourrait le comprendre comme une mauvaise écriture de « XL », un expert métier saura se poser la question : donnée non renseignée, donnée remplie au hasard par manque d’information ou de temps, ou erreur de saisie..? Sans connaissance fine du métier, on ne peut présupposer de la qualité d’une donnée.

Cette connaissance métier doit être prise en compte à toutes les étapes du projet et notamment lors du nettoyage de la donnée. Que ce soit du dédoublonnage, de la complétion ou de la mise en cohérence, chaque action doit être réalisée en prenant en compte l’utilité finale de la donnée.

Un exemple parlant de cette relation entre objectif et qualité est celui du cycle de vie de la donnée. Un produit en développement, un produit actuellement en vente et un produit retiré du marché n’ont besoin d’avoir ni la même qualité, ni la même quantité d’informations. Mais certaines entreprises que nous avons accompagnées accumulent de la donnée sur des objets vendus il y a plus de 50 ans, mais qui doivent être conservées en cas de retour au SAV.

Nous avons donc développé une méthode d’estimation spécifique de la qualité de la donnée pour ces articles, dont la qualité de la donnée est très différente d’un produit actuellement en vente. En prenant en compte le cycle de vie et l’usage des données, on peut en éliminer la donnée inutile. Le prix de vente en retail n’a, par exemple, pas besoin d’être renseigné pendant la phase de développement du produit. Une information apportée trop tôt devient source d’une charge de travail mal valorisée.

Par ailleurs, l’arrivée de l’IA dans les outils de Product Information Management viendra certainement proposer de nouveaux use case pour simplifier le remplissage de ces données de manière rapide et qualitative. Pour assurer la qualité et pas seulement la complétude des données, la mise en place d’indicateurs est fortement recommandée.

2. Mesurer : « Tout Bourgeois veut bâtir comme les grands Seigneurs »

Mais cette liste de besoins était si longue qu’il se rendit compte qu’il ne pourrait pas assurer lui-même la bonne complétude de ces données. Il décida donc de nommer des adjoints responsables de ce suivi. En bon horloger, le nom de leur poste était tout trouvé : ce seraient les Indicat’heures. Ces personnes auraient pour rôle de lui faire un rapport hebdomadaire de l’état de complétude et de qualité des données. Ceci permettrait à l’intendant d’orienter ses efforts pour rendre son document le plus juste et pertinent possible.


Quels indicateurs utiliser ? Combien en utiliser ? A quelle fréquence les (re)calculer ? Comment assurer leur qualité ?

Les indicateurs de qualité ont pour objet d’orienter la stratégie d’amélioration de la donnée. Afin d’être utilisables et peu contraignants, ces indicateurs doivent :

  • être en nombre restreint,
  • avoir un objectif défini,
  • et dans le meilleur des cas, être assujettis à un plan d’actions.

Trop d’indicateurs pourraient impliquer une perte de rigueur et diluer leur impact dans la prise de décision. Pour réduire leur nombre, gagner en efficacité et en réactivité, plusieurs questions peuvent être posées :

  • Quelle est l’utilité réelle des indicateurs ?
  • Quelles problématiques viendront-ils dévoiler ?
  • Quels acteurs doivent les suivre ? Comment embarquer les acteurs dans leur utilisation ?
  • Quels seuils correspondent à quel niveau de qualité ?


Quelques indicateurs souvent utilisés :

  • Taux de complétude : il indique le pourcentage de data complétée sur un panel d’attribut prédéfini. A définir avant le changement d’étape de cycle de vie pour s’assurer qu’il ne manque pas d’informations cruciales à ce passage (ex : prix, code douaniers, matières, …) qui pourrait entraîner des problèmes par la suite.
  • Nombre de caractères entrés dans un champ de texte : pour des descriptions produit, un faible nombre de caractères peut être synonyme de descriptions peu précises et manquant d’informations. Un travail de communication auprès des équipes renseignant ces informations peut être nécessaire pour s’assurer de sa qualité.
  • Nombre de doublons : lors des étapes de codification, de migrations ou de refonte du data model, des doublons peuvent être créés et venir fausser les indicateurs. Des vérifications régulières sur des attributs clés tels que l’ID, le nom ou le type de produits permettent de mettre en évidence ces éventuels doublons.


Ces indicateurs, simple à mettre en place, à automatiser et à calculer, donnent une vue globale sur la donnée, mais aussi sur les bonnes pratiques de remplissage.

Par exemple, sur un champ textuel long (type description produit) ayant “4” comme nombre médian de caractères entrés peut cacher un remplissage approximatif par les utilisateurs (ex : NC, NA, XXXX, …) pour contourner l’obligation de complétion. Les raisons de ce comportement peuvent être multiples : manque d’informations, manque de temps, ou liées à une inadéquation entre la demande et le besoin réel.

C’est pour cela qu’au maximum, les développements et mises en qualité doivent se faire avec l’approbation du métier, et donc de l’utilisateur final, et communiquer sur l’utilisation des données à chaque cycle de vie du produit.

3. Suivre : « À l'œuvre on connaît l'artisan »

Après avoir recruté ces nouveaux Indicat’Heures, notre intendant se posa une question : comment faire pour s’assurer que les nouvelles données entrées seraient de meilleure qualité que les anciennes ? En effet, il n’avait pas le temps de s’occuper de contrôler toutes les données qui entraient dans son document, ni les connaissances techniques nécessaires pour challenger ses ouvriers. Il devait donc à nouveau se faire accompagner de personnes spécialisées dans cette tâche : les Manag’heures d’information qui seraient les garants de la qualité de l’information du document unique.


Pour sécuriser une bonne qualité de la donnée, il faut une mettre en place une gouvernance, un responsable du chantier de suivi de la qualité de la donnée. Un système de gestion de la donnée sans porteur(s) dédié(s) peut être efficace dans une structure réduite et flexible, mais n'est pas adéquat dans les grandes entreprises et collectivités, où la volumétrie de la donnée et la complexité des règles associées nécessitent une connaissance précise et suivie.

Dans une grande entreprise, nous avons défini un modèle de gestion de la donnée produit et conseillé la création de plus de 15 postes de Data Manager. Ces Data Managers ont ainsi permis :

  • d’avoir une vision transversale de la donnée pour appuyer la prise de décision ;
  • de solliciter efficacement les différents créateurs et utilisateurs de cette donnée pour maximiser sa valorisation ;
  • de s’assurer de l’actualisation par la mise à jour des données obsolètes ;
  • de calculer et analyser les indicateurs définis précédemment et de mettre en œuvre les plans d’actions associés ;
  • de mettre en avant les besoins d’évolutions des solutions de gestion de la donnée utilisées par l’entreprise.

Toutes ces missions permettent, in fine, de limiter les pertes de qualité de la donnée et préviennent la nécessité de chantiers massifs de remise en qualité souvent plus couteux et chronophages qu’un suivi régulier. Comme dans tous projets, la présence d’un pilote permet d’éviter la dérive. Ce mode de fonctionnement, contrairement à la correction de la donnée à postériori, permet d’améliorer la confiance dans la donnée enrichie et d’en avoir une gestion plus sereine.

4. Corriger : « On a souvent besoin d’un plus petit que soi »

Un mois après le lancement du projet, un des manag’heure proposa à l’intendant de recruter une personne qui avait déjà participé à la création de documents uniques dans d’autres manufactures. Grâce à son expérience il pourrait faire gagner du temps à la manufacture en partageant de nouvelles techniques de collecte d’informations. Il serait aussi capable de remplir par lui-même des données manquantes en se basant sur les données déjà existantes, et de proposer aux indicat’heures des chiffres qui leur simplifieraient le suivi. L’intendant trouva la personne appropriée et l’embaucha. Rapidement, il se rendit compte que l’idée du manag’heure était très bonne car la qualité du document unique augmentait significativement, les rapports des indicat’heures étaient plus précis et le travail des manag’heures, largement facilité.


Pour faciliter la gouvernance et le pilotage, il existe aujourd’hui un nombre important d’outils qui automatisent l’analyses de la qualité, la configuration de règles de gestion personnalisées et garantissent des indicateurs fiables. Elles ont l'avantage d’aider à formaliser les besoins, à obtenir des résultats probants rapidement et d’embarquer vos équipes grâce à un outil simple, performant et intuitif.

Parmi ces outils, on compte notamment le Data Quality Navigator développé par BearingPoint. Il automatise le nettoyage des données de toute l’entreprise à partir de règles préconfigurées ou via un module de configuration de règles personnalisées. BearingPoint propose aussi l’accompagnement par une équipe spécialisée, qui répond aux questions et besoins de votre entreprises et vous accompagne dans la montée en compétence. L’outil a été pensé pour être accessible et ergonomique, pour une prise en main simple pour les actions les plus répandues. Il devient donc un sérieux concurrent des solutions de gestion de la data quality proposées par des acteurs comme Informatica ou SAP (« Information Stewards »).

L’outillage est une étape essentielle de la mise en qualité de la data : oser s’outiller garantie des process data produits cohérents avec les besoins business et logistiques et une nette amélioration de l’expérience collaborateurs et de l’expérience client. L’arrivée de l’intelligence artificielle dans les outils promet un nouveau paradigme d’accompagnement dans la mise en qualité de la data, que ce soit dans l’automatisation de tâches répétitives et chronophages comme la saisie de données, dans la classification des produits et la gestion de leurs attributs, dans l’amélioration de la qualité de leurs données ou encore dans la facilitation de la collaboration entre équipes concernées. L’IA propose des accompagnements à plusieurs niveaux de services : de la suggestion de remplissage au remplissage automatisé, et peut aujourd’hui accélérer et augmenter le travail de la donnée, mais nécessite généralement une vérification et validation humaines.

Morale : « Rien ne sert de courir ; il faut partir à point »

Grâce aux mesures prises par l’intendant, le document unique fut prêt quelques jours avant l’annonce du retour du seigneur. Il lui tendit le document avec fierté. Le seigneur, impressionné devant la rapidité de l’intendant, lui demanda son secret. « La réussite est là où l'opportunité rencontre la préparation », lui répondit-il. Impressionné par cet intendant, le seigneur lui proposa de devenir son horloger officiel pour les 10 prochaines années… à condition que le document unique lui soit transmis, à jour, tous les 6 mois !


En appliquant ces conseils, on voit qu’une donnée de bonne qualité n’est pas tant une fable qu’il n’y paraît, mais le chemin pour y arriver peut être long et fastidieux, si certaines étapes sont sautées. La clé réside dans la préparation et l’adhésion de toute les équipes : un outil seul ne pourra pas résoudre l’ensemble des problématiques de qualité de la donnée, c’est bien aux équipes de s’en assurer. La fonction principale de la plupart des outils est de mettre en exergue les données de mauvaise qualité. Si la préparation de la donnée et sa complétude initiale est correctement maitrisée, les besoins de remise en qualité se réduisent.

Dans le temps, la mise en place d’un mode “Run” est crucial pour ne pas perdre tous les efforts et assurer un maintien optimal de cette qualité dans le futur, à travers les responsabilités et les outils nécessaires. Ces modalités cibles doivent être anticipées dès le lancement du projet afin d’assurer un dispositif opérationnel et sécuriser la qualité de données et l’évolution du modèle avec les besoins métiers.

Une fable s’accompagnant toujours d’une morale, nous pourrions mettre fin à celle de la Qualité de donnée par une morale simple : « Shit in, Shit out ». Néanmoins les acteurs de l’IA dans la donnée pourraient agir comme de bonnes fées marraines et transformer les citrouilles en carrosse : on peut imaginer l’IA générative s'immiscer dans la chaine pour détecter les données essentielles manquantes, générer ou deviner les informations pertinentes, compléter instantanément d’un coup de baguette magique. Ceci est une autre histoire qui n'est déjà plus un mythe pour certains acteurs majeurs faisant face à des volumes gigantesques de données à traiter. L’avenir nous dira si l’IA trouvera sa place de façon pérenne et industrielle sur plus d’acteurs, et si la “Qualité Augmentée” sera restée légende ou devenue réalité.

Auteurs :
François-Xavier Chiarasini
Catherine Bouev
Kevin Mittereau
Héloïse Guillou

Références :

Bibliographie :

  • « The state of Data Quality », MonteCarlo Data, 2023
  • « Magic Quadrant for Data Quality Solutions », Gartner, 2020 
  • « Cost of a Bad Lead - The Revenue Marketers Guide », Integrate, 2022

Origine des titres :

  • « En toute chose il faut considérer la fin » : Le Renard et le Bouc, J. DE LA FONTAINE
  • « Tout Bourgeois veut bâtir comme les grands Seigneurs » : La grenouille qui se veut faire aussi grosse que le Bœuf, J. DE LA FONTAINE
  • « À l'œuvre on connaît l'artisan » : Les Frelons et les Mouches à miel, J. DE LA FONTAINE
  • « On a souvent besoin d’un plus petit que soi » : Le Lion et le Rat, J. DE LA FONTAINE
  • « Rien ne sert de courir ; il faut partir à point » : Le lièvre et la tortue, J. DE LA FONTAINE

Would you like more information?

Si vous souhaitez en savoir plus à ce sujet, nos experts sont à votre disposition.