Big Data benefits the future
利用大数据,可围绕业务场景构建业务特征模型,以到达对业务目标的预测或推荐,但在构建特征模型后,很多人习惯依赖业务经验主义,而忽略对模型进行数据验证。有些知道要进行数据验证,却不知如何下手。现根据自己项目经验总结数据验证的场景和步骤,以供大家参考学习。
大数据验证可分为4个步骤:
1、数据支撑度验证;
2、规则合理性验证;
3、阈值合理性验证;
4、规则可靠度验证;
1、先导论
在和用户进行业务沟通前,有些基础性的工作是必备的:
(1)熟悉业务;
(2)熟悉产品;
(3)熟悉数据和结构;
(1)熟悉业务:可以在与用户沟通时,有深入沟通的可能性。在双方讨论的过程中,可逐步深入沟通业务,引导用户描述业务场景和需求,有助于洞察和透彻地理解用户真实需求。不然很可能陷入用户说、你听的被动局面,双方难以沟通。
(2)熟悉产品:可在用户描述业务场景时,基于已有产品和自身经验,构建产品大致框架,并及时与客户沟通;也可在客户谈业务时,构建联想,将其他产品能力引入自身产品,同时也可将自身产品与其他产品功能解耦或适当融合。
(3)熟悉数据和结构:在用户构建业务特征模型时,当部分模型没有数据或数据难以支撑时,可提出并与客户沟通,节省沟通成本。
2、数据支撑度验证
基于用户丰富的业务经验总结,我们可以构建初步的业务特征模型。当拿到用户总结的模型规则时,我们首先要做的不是动手开始写SQL、跑数据,而是要先基于现有数据和数据结构,验证是否能支持特征模型。
通过经验总结的模型规则,有时会存在部分根本没有数据支撑;有时部分规则看似有数据,但在实际验证过程中发现:没有相应的字段;字段值质量、多数为空;需要统计的、有时统计口径不一致,难以计数等问题,都需要在该阶段验证,并及时与客户反馈。最后通过调整模型规则、治理数据或接入更多数据等方式解决。
3、规则合理性验证
基于客户丰富的业务经验,总结出的特征模型,大部分时候都是符合业务特征的,但当用户对总结的模型规则也存在一定不确定时,可进行规则合理性验证。如用户对模型规则较确定,则可省略掉此步骤,直接进行第4、5步规则验证。
做规则合理性验证,一般采取先取一部分典型对象,依照模型规则跑出部分数据,让客户人工进行验证,如果提取的规则大致符合业务特征,则可进行下一步。
4、阈值合理性验证
部分模型规则会设置部分阈值,满足该阈值的目标对象,才是符合业务特征的对象。因为客户经验多基于经验估算,估算出的阈值有可能与实际数据不符,故当存在阈值类的规则时,就需要对阈值的合理性进行验证。
进行阈值合理性验证,一般采取全量统计,然后根据各目标对象统计结果的分布情况,结合业务实际需求,确定阈值大小或位置。
如果全量统计量大,耗时长,也可选取折中方式,以客户经验估算的阈值为基准,统计阈值取基准线上下数值时,符合该阈值下规则的数量情况,最后依然是结合业务实际需求,确定阈值大小或位置。
5、规则可靠性验证
即改规则是否为目标对象的特征,需做两个层面的验证:
(1)目标对象内部,是否大部分目标对象符合此规则特征;
(2)目标对象外部,是否目标对象符合此规则特征,非目标对象符合此规则的程度较低。
因项目涉及内容不便对外公开,故没有结合项目举例说明,纯理论描述会偏于抽象
。
评论留言