Résolution d'identité : entrepôt de données contre plateforme de données client

Publié: 2022-08-16

Tout le monde veut une source unique de vérité pour les données client, mais ce que cela implique dépend de qui vous demandez.

Bien sûr, l'entrepôt de données est un « magasin unique » pour les données client collectées sur plusieurs sources ; cependant, en l'absence de résolution d'identité, les données ne sont qu'à moitié vraies. Construire une vue unifiée de l'activité des clients à partir des données est tout sauf trivial - ceux qui en sont chargés peuvent attester des complexités impliquées pour bien faire les choses.

De plus, la définition de la résolution d'identité varie également d'une entreprise à l'autre. Pour certains secteurs, la résolution d'identité est un sous-ensemble d'un problème de résolution d'entité plus large.

La résolution d'identité, comme son nom l'indique, fait référence à l'identité d'une personne - un utilisateur ou un client individuel qui est l'une des nombreuses entités avec lesquelles une entreprise traite. Certains des autres sont des comptes, des produits, des fournisseurs, des vendeurs, des partenaires et des revendeurs.

Dans ce guide, cependant, je souhaite approfondir un peu la résolution d'identité et décrire les systèmes où elle a lieu, les différences entre la résolution d'identité automatisée et manuelle, et les avantages de la correspondance déterministe par rapport à la correspondance probabiliste.

Résolution d'identité : où et comment cela se passe-t-il ?

La résolution d'identité, comme vous le savez probablement déjà, est le processus d'unification des enregistrements d'utilisateurs (ou de clients) qui sont capturés sur plusieurs sources (ou points de contact).

Mais où se déroule ce processus ? Qui réalise l'unification ? Comment les données sont-elles capturées et stockées ? Et quels sont les points de données préalables pour rendre tout cela possible ?

Il est important d'avoir des réponses à ces questions avant d'investir dans une entreprise de résolution d'identité.

Entrepôt de données (DWH)

Bill Inmon, connu comme le père de l'entrepôt de données, a récemment écrit un article intitulé "Ce qu'un entrepôt de données n'est pas" dans lequel il démystifie les mythes populaires concernant ce qu'est un entrepôt de données - c'est une lecture fascinante et je le recommande vivement si vous voulez mieux comprendre ce qui se passe dans le monde de l'entreposage de données.

L'entrepôt de données, dans sa forme typique, est une base de données cloud qui stocke les données client provenant de sources disparates et est utilisée pour les charges de travail analytiques.

Avant que la résolution d'identité ne puisse avoir lieu, il faut s'assurer que les données provenant de sources de données propriétaires (applications, sites Web ou appareils intelligents) sont mises à disposition dans l'entrepôt de données, ce qui est généralement effectué à l'aide d'une infrastructure de données client (CDI) interne ou externe. la solution. Les données collectées et la manière dont elles sont stockées sont importantes, car la résolution d'identité repose sur un ensemble d'identifiants (ID) utilisés pour faire correspondre et fusionner les enregistrements d'utilisateurs provenant de plusieurs sources.

Rédaction du code d'unification

Le processus d'unification ou de fusion des enregistrements commence une fois que les données requises sont mises à disposition dans l'entrepôt. Cela est généralement effectué par des analystes qui ont une bonne compréhension des ensembles de données et sont aptes à écrire des requêtes SQL qui effectuent des jointures complexes entre les tables pour créer de nouvelles tables appelées vues matérialisées. Ces tables servent alors de source de vérité qui est utilisée pour l'analyse et l'activation.

Appariement probabiliste ou déterministe

En l'absence d'identifiants tels que l'e-mail, le numéro de téléphone portable, l'identifiant de l'appareil et l'identifiant de l'utilisateur, ou la possibilité de les joindre avec précision en raison d'autres facteurs, il faut recourir à ce que l'on appelle la correspondance probabiliste, qui repose sur des signaux plutôt que sur informations personnellement identifiables (PII).

Également connue sous le nom de correspondance floue, la correspondance probabiliste recherche une combinaison de propriétés utilisateur telles que le nom, l'emplacement, le système d'exploitation, l'adresse IP, etc. pour ensuite fusionner les enregistrements lorsque la correspondance potentielle reçoit un score acceptable.

En termes simples, l'appariement probabiliste est plus flexible mais n'est pas précis à 100 %. Il est logique de l'utiliser pour des cas d'utilisation critiques tels que la détection de fraude où les ensembles de données sont volumineux et complexes ; cependant, cela n'est pas recommandé si votre objectif est de créer des expériences personnalisées basées sur les données.

L'appariement déterministe est plus précis simplement parce qu'il n'y a pas de « conjecture » impliquée, c'est un scénario 0 ou 1 basé sur les identifiants disponibles. Les avantages de cette approche sont décrits ci-dessous.

J'espère que vous avez maintenant une bonne compréhension de la façon dont la résolution d'identité est gérée dans l'entrepôt de données. Il est temps de comprendre comment c'est fait par les CDP.

Plateforme de données clients (CDP)

Je voulais faire un lien vers un article décrivant ce qu'un CDP n'est pas (voici ce qu'est un CDP) , mais malheureusement, je n'en ai pas trouvé donc je voudrais d'abord mentionner rapidement qu'un CDP n'est pas un CDI, ni un CRM.

Essentiellement, une plate-forme de données client est, eh bien, une plate-forme au-dessus de l'infrastructure de données client - la plate-forme permet aux gens de segmenter et de synchroniser les audiences avec des outils tiers à l'aide d'une interface visuelle.

Alors, où la résolution d'identité a-t-elle lieu et comment ?

En règle générale, elle a lieu au moment ou peu de temps après la collecte des données. Sous le capot, un CDP stocke une copie des données et, de manière automatisée, effectue une mise en correspondance déterministe basée sur les identifiants fournis.

Comme mentionné précédemment, les informations personnellement identifiables (PII) jouent un rôle clé dans la mise en place d'une correspondance déterministe et offrent un haut niveau de précision - un système intégré pour collecter les données et effectuer l'unification est ce qui rend un CDP attrayant.

Certains fournisseurs de CDP ont choisi la voie probabiliste et vantent leurs offres comme étant de nature supérieure. Au lieu de détailler les inconvénients de la correspondance probabiliste, j'aimerais souligner certains des principaux avantages de la correspondance déterministe.

Résolution d'identité déterministe : principaux avantages

La personnalisation est le Saint Graal pour les entreprises de SaaS et de commerce électronique, mais si elles tournent mal ou au mauvais moment, les efforts de personnalisation peuvent s'avérer plus préjudiciables que l'absence de personnalisation du tout.

La résolution d'identité déterministe garantit non seulement une personnalisation précise à grande échelle, mais permet également aux entreprises d'être plus respectueuses de la vie privée et de respecter plus strictement les réglementations. Permettez-moi de déballer ça.

Personnalisation

Étant donné que la résolution d'identité déterministe n'a lieu que lorsque le système est capable d'identifier les enregistrements d'utilisateurs en fonction des identifiants fournis directement par l'utilisateur (généralement un e-mail ou un numéro de téléphone), il est très peu probable que les efforts de personnalisation soient gâchés.

De plus, la rapidité est assurée puisque les CDP sont capables d'effectuer automatiquement la résolution d'identité au moment de la collecte des données.

Un cas d'utilisation simple qui s'applique à la plupart des entreprises SaaS consiste à envoyer un e-mail de bienvenue hautement personnalisé aux utilisateurs, presque immédiatement après leur inscription, qui prend également en compte d'autres attributs de l'utilisateur tels que l'emplacement, l'industrie ou les préférences.

Les entreprises SaaS permettent généralement à un utilisateur de créer plusieurs comptes ou espaces de travail, mais envoyer le même e-mail de bienvenue standard à un utilisateur existant n'a guère de sens. Une résolution d'identité déterministe associée à une segmentation prédéfinie et à une synchronisation en temps réel peut garantir que l'utilisateur n'est pas traité comme un nouvel utilisateur et que la communication qu'il reçoit reflète cela.

Un exemple plus large qui s'applique à presque tous les secteurs consiste à informer les utilisateurs lorsqu'ils se connectent à leur compte sur un nouvel appareil ou dans un lieu non reconnu. Étant donné que le système dispose déjà de l'ID utilisateur associé à une adresse IP et à un ID de périphérique spécifiques, il est capable de reconnaître immédiatement les modèles inconnus et d'informer l'utilisateur en temps réel.

Respect de la vie privée

Personne n'a besoin d'une leçon sur les raisons pour lesquelles une approche respectueuse de la vie privée est essentielle pour les entreprises - les ramifications du non-respect du RGPD ou du CCPA peuvent être brutales.

Grâce à la correspondance déterministe, les marques peuvent être certaines que si un utilisateur a choisi de ne pas recevoir de communication ou souhaite être oublié, il est identifié avec précision dans les systèmes en aval (e-mail, SMS, canaux publicitaires, etc.) et ses données sont effacées de partout.

Atteindre ce niveau de conformité en l'absence d'un CDP avec des capacités de résolution d'identité déterministes est loin d'être trivial et peut entraîner de multiples violations en cours de route.

Quelle forme de résolution d'identité vous convient le mieux ?

L'objectif de ce guide est de fournir un aperçu de la façon dont la résolution d'identité est obtenue dans différents environnements sous différentes contraintes, et j'espère que j'ai réussi à le faire.

Ces conseils et suggestions sont mieux adaptés au domaine des cas d'utilisation des produits, de la croissance et du marketing, principalement dans les entreprises B2B SaaS. De plus, cet article ne vise pas à conclure qu'une approche est meilleure qu'une autre, et sur la base de certains facteurs, la gestion de la résolution d'identité dans l'entrepôt de données à l'aide de la correspondance floue pourrait après tout mieux fonctionner pour certaines entreprises.

Apprenez-en davantage sur la résolution d'identité dans le CDP Amplitude en discutant avec un expert produit .