从大数据的三个特征探索大数据的本质

大数据
后台-插件-广告管理-内容页头部广告(手机)
从大数据的三个特征探索大数据的本质

图片来源:今日头条图库

引入信息消除不确定性,是信息智能时代做事的基础思想和根本方法。当我们认识到引入信息(或数据)能消除不确定性,以及许多智能问题就是消除不确定性,才能真正理解为什么使用数据驱动的方法可以解决智能问题。

算法、算力、大数据是实现机器智能应用的三大支柱,彼此互为关联,缺一不可。大数据是除开算法和算力之外,越用越多,越用越值钱的数据资产。

然而,大多数非专业人士对大数据的认识,可能只停留在数据量大这一层面,并不清楚大数据的本质。为此,吴军老师在《智能时代——大数据与智能革命重新定义未来》中,从数据量大、多维度、完备性三个大数据特征阐述了大数据的本质,现分享给大家。

从大数据的三个特征探索大数据的本质

第一个特征:数据量大。

数据量大是我们最容易想到的特征。过去,由于数据收集的难度比较大,数据量也比较小等诸多原因,导致数据的作用难以发挥,让研究人员在相当长一段时期忽视了数据在开发人工智能领域的重要性。

随着现代通信技术的发展,一方面收集数据变得容易;另一方面,在世界著名的语音识别和自然语言处理专家弗莱德里克·贾里尼克教授提出的“数据驱动方法”解决了人工智能问题(语音识别)后,研究者们才开始对机器智能有了突破性的认识,即语音识别的本质是通信问题,以及智能问题就是消除不确定性的问题,且依赖于庞大的数据量。

第二个特征:多维度。

大数据的多维度并非简单指信息面广、品类丰富。吴军老师建议,我们应该从“互信息”和“交叉验证”两个视角理解。

首先,对“互信息”的理解。

作为信息论中的重要概念之一,“互信息”能帮助解释为什么信息的相关性可以解决很多问题。很多时候,我们获取的信息和需要研究的事物并非一回事,它们之间必须有所关联。如此,获取的信息才能帮助我们搞清楚想要研究的问题,达到消除不确定性的目的。比如,央行调整利率和股市短期波动就有很强的相关性,彼此的互信息就很强。

其次,对”交叉验证“的理解。

我们举例说明。下调房贷利率与提升房屋成交量之间存在互信息,但是下调房贷利率不一定会提升房屋成交量。房屋成交量还受到当地购房政策是否宽松、消费者是否有购买能力与意愿、楼盘品质是否优质、是否有足够多的新人口进入、房价预期是涨还是跌等多种因素的影响,只有当众多因素彼此相互影响,与刺激购房需求大致趋向一致,才有可能初步判断下调房贷利率会提升房屋成交量。这就是交叉验证。

第三个特征:完备性。

“交叉熵“也来自信息论,是理解数据完备性的关键概念。由统计学家库尔贝克等人提出,又称”库尔贝克-莱伯勒距离“,它反映出两个信息源之间的一致性,或者两种概率模型之间的一致性。简单讲,当建立模型所使用的数据与使用模型所用的数据保持一致性越强,两个信息源之间的信息”交叉熵“才越接近于零;否则,”交叉熵“越大。吴军老师在《智能时代——大数据与智能革命重新定义未来》中写道,“交叉熵就是对两个信息源或两种概率模型之间一致性的一种精确的量化度量。”

在没有使用大数据之前,受到信息技术手段的限制,采集数据的难度很大,数据量也很小,导致使用任何基于概率统计模型都会漏掉很多小概率事件。正是因为信息的”交叉熵“很大,在没有大量数据支撑状态下,使用”数据驱动方法“就会失效。

为避免”数据驱动方法“失效,这就对大数据的完备性提出了要求。只有当数据具备了完备性,建立模型的数据集合和使用这个模型的测试集合才是同一个集合,或两个数据源高度重复,信息的交叉熵才可能近乎于零。数据驱动方法才会有效,并具有普遍实用价值。

总结,从大数据的三个特征可见,“庞大数据量”是有效实施“数据驱动方法”的基础;“互信息”和“交叉验证”保证了大数据多个维度的有效性;“交叉熵“作为信息的一种精确量化度量,则检验着信息源之间的完备性。大数据的科学基础都是建立在信息论之上,本质就是利用引入信息消除不确定性。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。