「大数据」关于数据血缘

2024-04-01 05:13:49 大数据 ℃

后台-插件-广告管理-内容页头部广告（手机）

前言

大数据里面有个专有名词：数据血缘，可能很多人很好奇，不知道这个词什么意思。

数据血缘指的是大数据体系里面，数据经过数据采集 - 入湖 - 入库分析 - 数据清洗转换 - BI展示等等处理过程中形成的脉络。

简单来说其实就是源数据是同一个，但是衍生了很多数据血脉，用人类生物继承学的观点来说，这一整条数据链路也就形成了某个业务的数据血缘。

1. 归属性。一般来说，特定的数据归属特定的组织或者个人，数据具有归属性。

2. 多源性。同一个数据可以有多个来源（多个父亲）。一个数据可以是多个数据经过加工生成的，而且这种加工过程可以是多个。

3. 可追溯性。数据的血缘关系体现了数据的生命周期，体现了数据从产生到消亡的整个过程，具备可追溯性。

4. 层次性。数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据，不同程度地描述信息形成了数据的层次。

一个简单的数据流转图：

可以看出数据的来源可以是多个，数据处理的过程可以自定义扩展，但是同一个数据是可以依据数据血缘图进行溯源的。

数据血缘图

上图实际所体现的表：

数据流转表

后台-插件-广告管理-内容页尾部广告（手机）

标签：