数据建设与熵增定律

人工智能
后台-插件-广告管理-内容页头部广告(手机)

0-0 数据建设和“熵增”


企业数据建设已经是持续了很久的主题,数据建设过程往往是通过数据对业务进行描述的过程,也有引入业务“数字孪生”的说法。而一套优雅的数据体系不仅仅能描述业务,对业务系统以及相关业务决策进行合理化输出,更能提前走位避免持续建设过程中的隐患造成不必要的资源浪费。

数据建设过程并非一帆风顺这是显而易见的,因为客观上数据的建设过程符合熵增定律。

0-1 特性和规律


熵增定律是克劳修斯提出的热力学第二定律,这一定律甚至可以用来描述宇宙发展规律,甚至于有鸡汤说法是有些人看懂了熵增定律之后顿悟了。其大体描述的是“在一个封闭的孤立系统内,若无外力做功,其混乱度(熵)会不断增大,而且这一过程是不可逆的”。那么由此可以看出来熵增定律的特性:

  • 过程不可逆
  • 孤立系统
  • 混乱和无序

当然,了解到这一点或许就能明白为什么自己的卧室会越来越乱。而数据的持续建设过程也同样可以参考这一理论。

我们再来看由Inmon大师在《Building the DataWarehouse》一书中提出数据仓库相对公认的几大特性:

  • 面向主题的(Subject Oriented)
  • 集成的(Integrated)
  • 相对稳定的(Non-Volatile)
  • 反映历史变化(Time Variant)

集成(Integrated)需要整合企业相关业务的所有数据,就意味着系统相对孤立,而面向主题(Subject Oriented)实际上在操作过程中其实是针对不同业务抽象出来不同的主题,这一过程通常由于实际数据结构、业务变化等因素决定了其无序性。反映历史变化(Time Variant)是数据仓库在建设过程中保留了业务发展所有的数据变化,存量数据持续增长这一过程是不可逆的。那么从概念上看,是不是数据的建设过程基本符合熵增定律。

0-2 数据治理的必然性


熵增定律不断发展的过程也同时说明了数据治理的必然性。而数据治理的过程实际上也是对抗熵增的过程,即所谓的熵减也叫做负熵。

而熵增的必要条件即孤立系统、无外力做功其导致的结果就是混乱和无序也就是熵值增加,数据治理的动作实际就是通过加入外界干预来减小其熵值的过程。

数据建设与熵增定律

引申到现在行业内形成的比较完善的治理体系包含规划治理范围、人员职责、治理目标、SOP以及监控和治理配套相关的工具等。通常在任务监控、故障响应、资产梳理、配套系统开发协调等一系列动作需要一些专门岗位的同学去完成,尤其配套系统例如:监控系统、评分系统、资产管理系统等等更需要专门的团队来开发。而比较优秀的数据团队通常这些系统化程度更高,也就意味着可以更高效地完成负熵动作。

数据建设与熵增定律

而行业现状是很多数据团队由于种种原因,仍然不具备完善的治理体系,数据治理仍旧停留在问题驱动,治理过程无法标准化仍旧通过碎片化或者人工保障来支撑。

当然,从熵增定律上来看,以上的一系列治理动作主要的动作方向是通过对数据建设的约束以及直接减小混乱程度(即外力做功和减少熵值)两个方向来展开,而针对打破孤立系统在治理动作中涉及较少。

0-3 打破孤立系统


打破孤立系统这个角度目前来看是模型开发的同学更加关注的领域,在模型建设过程中更多需要考量数据模型的通用性、易用性以及扩展性,核心模型上线在流程上也加入模型评审环节,当然,更好的模型设计只是为了降低数据使用门槛,使得打破数据孤岛相对容易,并不绝对。

系统化的概念行业内比较有名的是阿里数据团队提出的OneData体系,其中引入的OneID概念,OneID是通过统一的数据萃取来实现不同系统的各种ID映射到统一的ID上,这种方式很大程度上解决了异构系统之间数据不一致的问题。但是要想实现OneID需要付出巨大的成本,尤其是对已经建设很久的数据系统所需要的代价更大,而且并不一定适合所有场景。

还有一种是美团数据团队提出的体系化建模思路,即事前治理,通过模型设计解构高层指标来约束物理模型的思路来避免实施的割裂、无序造成“烟囱式”开发。但是这种思路中对于跟业务的互动相对较少,在模型设计环节对相应的RD就提出了比较高的要求。

实际上对于每个数仓开发来说更聚焦于数据跨主题域的业务应用上,行业内的做法并不统一,其中一种是需求决定主数据,再通过主数据合并其余数据域数据,不同数据域责任到不同owner收口,这也是比较常见的一种做法。

0-4 建模思路


从广义上理解OneID和体系化建模的思路,在实际场景中个人更喜欢也更推荐的思路是通过深入业务场景,整体上判断业务发展所需要的指标使用方式来进行模型设计,具体的实施是通过业务分析来确定数仓与整体业务发展更贴合的数据粒度(例如电商场景中的“人”、“店”、“品”),再通过模型设计结合现有数据进行结构,最终约束物理模型落地。

数据建设与熵增定律

在同一主题域下,通过业务场景的不断抽象,会不断夯实数仓的基础架构。而模型设计可以最大化地复用其中的数据模型,同时也可以对计算口径进行统一收口,而通过模型设计的架构元数据又可以最大化约束落地的物理模型,并以此进一步填充主题域下数仓模型。从而形成一个模型迭代中不断自我优化的良性闭环。

0-5 总结


物理学定律是严肃、客观的自然规律,而从降低熵值的动作可以启发我们来思考数据建设问题,即从数据团队、数据内容上加强跟业务系统的互动,从而打破数据系统所谓的“孤立”,另外就是从制度、SOP、标准等一系列动作上对数据建设过程施加“外力”,这样数据建设过程会更加优雅从容,将数据工作从需求驱动、问题驱动的被动中解脱出来。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。