Les doublons

Tous les doublons ne sont pas d’or. Dans nos fichiers, ils sont même de plomb.

D’un point de vue pratique, ces doublons occasionnent toutes espèces de petites erreurs : double envoi de cartes de vœux, double facturation (avec en plus production de l’avoir correctif), … et parfois de grosses confusions. Du point de vue informatique, il constituent une véritable hérésie ! L’unicité de l’information est le fondement du stockage dans les bases de données relationnelles, lesquelles sont au cœur de tous les logiciels de gestion.

Donc, sus aux doublons !

Pour parler doublon, il faut d’abord savoir ce qu’est être unique

Si un fichier ne doit contenir qu’une seule fois chaque entité gérée (par exemple, dans le fichier des membres d’une association, une personne ne peut apparaître qu’une seule fois), il faut savoir quelles informations permettent de s’assurer de cette unicité.

Dans notre exemple, si l’association n’est pas trop grande, mettons quelques centaines de membres, on peut considérer que le nom et le prénom, pris ensemble, permettent d’identifier chaque membre sans risque de confusion, c’est à dire sans risque que deux personnes partagent le même nom et le même prénom.

Si on veut être encore plus sûr, on pourra, par exemple, demander à chaque membre de l’association de donner son deuxième prénom, ou encore, on considérera en plus du nom et du prénom, la date de naissance. La probabilité d’avoir alors deux personnes partageant le même triplet Nom-Prénom-Date de naissance est infime.

Heureusement, dans beaucoup de cas, on peut trouver une information qui a elle seule permet de savoir si la même entité apparaît deux fois dans notre fichier. Le SIREN (9 chiffres) pour les entreprises ou le SIRET (14 chiffres) pour les établissements sont des identifiants officiels qui permettent d’être sûr(sure) qu’on a bien une et une seule fois une entreprise ou un établissement dans son fichier, aux erreurs de saisie près, évidemment.

Voir les doublons en quelques clics

Doublons1Dans le tableau Excel ci-contre, on a choisi  de saisir le SIRET de chaque client. Remarquez que la colonne C est sélectionnée.

Appliquons à présent le format conditionnel de mise en évidence des doublons. Dans l’onglet Accueil, cliquons sur Mise en forme conditionnelle, puis Règles de mise en surbrillance des cellules et enfin Valeurs en double … Dans la fenêtre Valeurs en double cliquons sur OK (on pourrait choisir le format mais cela n’apporte rien à notre propos).

Doublons3Les SIRET en double apparaissent en surbrillance. Comme on a pris soin de sélectionner toute la colonne C, tout SIRET en double apparaîtra dans cette couleur à la saisie quelle que soit la taille du tableau.

On remarque dans notre exemple que le doublon vient d’une orthographe défectueuse. Une recherche du numéro de SIRET sur internet vous donnera immédiatement la bonne orthographe.

Le filtre étant actif sur notre fichier, profitons-en pour découvrir le filtre par couleur en cliquant d’abord sur le bouton de filtre de la colonne SIRET puis Filtrer par couleur. On sélectionne la couleur de fond des doublons et l’affichage du tableau est restreint à eux seuls.

Doublons4                  Doublons5

Doublons6Mais que faire si ce n’est pas sur une, mais sur deux informations, et donc deux colonnes du tableau, que repose l’unicité ? Dans l’illustration ci-contre, issue de l’exemple de l’association, la colonne A contient une formule de concaténation (mise bout-à-bout) du nom et du prénom. C’est à cette colonne que sera appliquée la mise en forme conditionnelle de mise en évidence des doublons.

Récapitulons

Nous gérons dans nos tableaux ou bases de données des entités uniques. Certaines informations dont nous disposons sur ces entités, seules ou associées, sont uniques d’une entité à l’autre, et nous permettent d’identifier sans ambigüité chaque entité.

Dans certains cas, toutefois, il n’existe pas d’information ou de combinaison d’informations qui permettent d’établir l’unicité. On peut alors créer un simple numéro, incrémenté d’un pour chaque nouvelle entité. Dans un tel système, où les entités sont identifiées par un numéro, vous ne pouvez exclure que le client numéro 102 soit le même que le client 413 ou 729 mais vous êtes sûr(sure) que le client 102 est bien le client 102 et que connaissant ce simple numéro, vous êtes capable de retrouver toutes les informations décrivant ce client. Et c’est fondamental !

Dans ce système, sans identifiant « naturel », pour dédoublonner, on s’en remet à des présomptions. Par exemple, on va installer une mise en évidence des doublons sur le téléphone, ou, lors de la création d’un client (si les clients sont dispersés sur le territoire) on va vérifier si l’on a pas déjà un client dans la même ville ou sur le même code postal. Idem sur l’adresse si les clients sont de la même ville.

En conclusion, nous l’avons vu plus haut, il existe des moyens techniques simples de repérer les doublons de nos fichiers. Le choix d’un identifiant infailliblement unique de type SIRET doit évidemment être privilégié quand il existe, mais il restera des cas où seul un processus de saisie réfléchi et maîtrisé sera garant de l’absence de doublon. La saisie, toujours la saisie !

Allez je vous laisse, j’ai un fichier (pas le mien !) de 10 000 clients à dédoublonner et ça me fait pas rigoler, j’vous jure !

Posted in:

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *