前言
大数据里面有个专有名词: 数据血缘, 可能很多人很好奇, 不知道这个词什么意思。
数据血缘指的是大数据体系里面,数据经过数据采集 - 入湖 - 入库分析 - 数据清洗转换 - BI展示 等等处理过程中形成的脉络。
简单来说其实就是源数据是同一个,但是衍生了很多数据血脉,用人类生物继承学的观点来说,这一整条数据链路也就形成了某个业务的数据血缘。
数据血缘的特征
1. 归属性。一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。
2. 多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工生成的,而且这种加工过程可以是多个。
3. 可追溯性。数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。
4. 层次性。数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同程度地描述信息形成了数据的层次。
数据血缘实例
一个简单的数据流转图:
可以看出数据的来源可以是多个,数据处理的过程可以自定义扩展,但是同一个数据是可以依据数据血缘图进行溯源的。
数据血缘图
上图实际所体现的表:
数据流转表
评论留言