企业 CDP 全域用户关联数据体系建设指南

神策数据

+ 关注

2023-04-11 18:40

1208次阅读

现阶段，许多企业尝试落地 CDP，但却很难在短期内看到应有的 ROI 成效，初始投入与后期产出不对称，这严重打击了企业建设 CDP 的信心。在中国数据市场，企业 CDP 项目的重要关注点聚焦在数据治理上，致力于通过构建 CDP，打破数据割裂、上下游系统数据口径不一致、数据污染等困境，统一用户数据标识是企业 CDP 数据体系建设的关键问题。

神策数据《CDP 全域用户关联数据体系建设与实践》白皮书中提到，企业要想真正落地 CDP 项目并产生业务价值，其用户数据体系建设的终极目标是全域用户的标识唯一化，即把来自不同渠道、生态、业务系统的用户标识为同一个对象。本文将详细介绍企业如何通过全域用户关联实现用户标识唯一化，整体可概括为以下五个步骤。

一、上下游业务系统数据现状盘点

如何从零开始开展 CDP 的用户数据基础建设？企业的首要任务是理清 CDP 上下游的数据情况，以用户为主体梳理数据应用场景，比如业务数据如何收集、用户数据在什么情况下输出、用户触达场景有哪些等。全域用户关联作为 CDP 系统的基础能力支撑，会对上游数据的收集以及下游业务系统造成影响，所以在方案设计之初需要尽可能对上下游相关的数据现状进行盘点。

典型的数据现状盘点流程包括：

1、数据源梳理：梳理各业务线涉及到的业务系统。

2、用户主体 ID 梳理：梳理各业务系统中用于标记用户主体和数据相关的 ID，比如设备 ID、企微 ID、Union ID、Open ID、Cookie ID 等。

3、用户属性梳理：梳理各业务系统中用户标识 ID 对应的数据属性，业务 ID 对应的用户业务属性有卡号、身份、微信号、手机号等。

4、识别用户标识数据在源端存储的质量：例如在数据梳理的过程会发现一个手机号对应多个证件号，这时候需要对数据源产生的原因进行分析，找到异常数据产生的原因，如何在用户关联过程中处理。

5、ID 应用场景梳理：梳理围绕 CDP 应用的整个业务流程中，涉及用户 ID 应用的典型场景，比如 CDP 全域数据接入场景、用户分群数据输出场景等。

二、全域用户 ID 关联方案设计

输出用户 ID 关联方案的首要步骤是明确各业务线中哪些 ID 参与用户的关联，并确定 ID 的优先级、数量、父节点等信息。

1、ID 优先级：优先级的设定是为了解决当一条数据中有多个 ID，又无法关联时，数据归属的问题。按照设定，数据会归属优先级更高的 ID 所对应的用户。

2、业务唯一 ID：系统中唯一标识一个用户的 ID 类型，其优先级最高。以电商业务为例，用户的登录 ID 由于和用户购物等行为直接产生关联且可以通过很多途径获取到，往往可以作为「业务唯一 ID」来定义。

3、数量：取决于实际业务中一个用户可以拥有单个还是多个该类型的 ID，可以用来校验关联关系是否符合规则。

4、父节点：在一些业务生态中，ID 之间存在着父子关系。父节点的定义可以用于解绑时一并解绑子节点，比如在微信生态中，Union ID 是 Open ID 的父节点，如果要将 Union ID 进行解绑，则附属的所有 Open ID 也将随之被解绑掉。

完整梳理 ID 之后，就可以针对性地采用埋点、ETL 等方式，完成用户关联的持续落地了。通俗来讲，就是明确将哪些业务系统中的哪些数据提取出来再导入 CDP 系统中。业务中每一个事件对应的属性和涉及的 ID 都需要在埋点和 ETL 方案中体现，可以大大减少技术人员的理解成本。

三、用户数据关联的回溯修复

完成全域用户关联后，会在用户数据中发现历史关联错误的数据。根据新的关联结果，需要对这些错误数据进行解绑并绑定至正确的归属用户，重新完善用户全生命周期画像，从而提升 CDP 的用户数据质量。

举例来说，在用户关联过程中，基于同一个用户的唯一昵称「A」同时对应两个用户「张三 2020 年注册」「李四 2021 年注册」，由此识别为同一个用户，需要对重复关联数据进行合并。在这种情况下，可以参考最早触达用户的时间来完成用户属性的修复:「张三」2020 年注册早于「李四」2021 年注册，因此选择将数据关联至「张三」下。

同理，当历史数据中存在其他类似的「唯一用户 ID」并与当前产生冲突时，需要根据时间先后顺序，将两个「唯一用户 ID」进行合并，完成数据关联的回溯。

四、用户关联属性的冲突处理

企业在进行用户 ID 关联的过程中，会遇到用户关联同类属性冲突的情况，在进行属性合并的过程中，可以遵循以下四个规则:

第一，预置规则：特殊类型属性使用固定的预置规则来处理，比如按照访问时间先后顺序进行属性合并。

第二，缺省规则：默认以数据生成最早的时间为准，如果没有数据生成时间的相关字段就按照 ID 的优先级进行合并。

第三，设置基准规则：设置某个来源的数据为基准，例如相比 CRM 销售人员手动录入的信息数据和业务系统自动获取的订单数据，订单数据的准确性和稳定性显然更高，则选择以业务系统订单数据为基准。

第四，设置首末次规则：以最先接入数据的属性为准或者保持最末次的属性。

日常业务中会出现当前用户关联信息错误的情况，比如，用户更换手机导致设备 ID 变更等，这种情况就需要将现有的绑定关系解绑；另一方面，我们也发现，曾经认为某个 ID 和用户不相关，但后来经过人工等方式确认两者是相关的，这种情况就需要能够在自动关联未成功的情况下，以手动的方式将一个独立 ID 关联到现有用户上去。