「认识AI:人工智能如何赋能商业」「10」大数据基本概念

人工智能
后台-插件-广告管理-内容页头部广告(手机)

数据与智能 出版了专著「构建企业级推荐系统:算法、工程实现与案例分析」。每周输出7篇推荐系统、数据分析、大数据、AI原创文章。「数据与智能」(同名视频号、知乎、头条、B站、快手、抖音、小红书等自媒体平台号) 社区,聚焦数据、智能领域的知识分享与传播。

作者 | Harper

审核 | gongyouliu

编辑 | auroral-L

本期内容给大家带来的内容是来自于这本《认识AI,人工智能如何赋能商业》,这本书是我们数据与智能的创始人刘强翻译的,欢迎大家购买阅读 。本期给大家讲一讲大数据的基本概念。

我们所说的大数据,概括来说就是可以被计算机分析来揭示模式、趋势和关联关系的巨大数据集。如果大家有阅读过出现大数据这个词的学术报告的话,会发现许多作者并没有把“大数据”当作一个术语。他们用它来描述一个问题,他们经常是这样描述的:“我们有一个大的数据(BIG data)问题",而不是“我们有一个大数据(BIG-DATA)问题”。

我们在存储和处理大量生成的数据时会遇到很多困难。比如说,在一家公司升级其内部数据仓库后不久,数据量很可能就超过了该数据仓库的容量。数据仓库无法跟上流入它的数据量,或者没有足够的处理能力从这些数据中生成报告。现在许多公司在一天结束时会运行这个报告生成程序,报告将在第二天上午或下午完成。那在有些公司呢,许多员工可能同时查询数据,他们必须等待好几个小时才能得到结果,如果系统因处理能力不足而崩溃或冻结,他们就必须重新开始。但其实有许多业务(如证券交易所)都是依靠实时报告来保持竞争力的。

因此问题会越来越多。据估计哦,在未来十年内,全世界将有超过1500亿个联网传感器,每个传感器每年365天不间断地生成数据。想象一下人类一天之内在Facebook、Twitter、 Google、购物网站、游戏网站等网站上生成的所有数据,你就知道数据量有多大了!

其实大数据既是一个问题,也是一个机遇。之所以说它是一个问题,是因为你需要确定是处理大量数据集,还是处理更适中的数据。再或者你只需要使用更小的数据集。然而,如果需要分析大量的数据集,你需要规划你的存储和处理技术。但大数据也是一个机遇。如果没有大数据,人工智能就无法利用海量数据来构建精确的模型用于识别模式、进行预测。

那在处理数据的时候,我们可能会碰到一些容易混淆的术语,比如说数据挖掘和机器学习。那在这里也给大家简单描述一下这两者的区别。

数据挖掘呢是从数据中提取有用信息或见解的数据处理方法。而机器学习是一门让计算机去做它们没有被设定好怎么去做某项事情的技术。数据挖掘可以使用机器学习从数据中提取有用的信息或见解,但不一定非要使用机器学习技术。它们两者的另一个关键区别是它们所使用的技术。使用机器学习,首先要训练一个模型,然后使用一个用Python、R或其他一些计算机语言编写的机器学习框架。数据挖掘通常使用更广泛的工具集,包括可视化和商业智能工具,其中许多工具的功能比较单一,只以类似Excel但又比Excel更复杂的方式提取、排序、汇总和呈现数据。

本内容来源于「数据与智能」创始人刘强翻译的畅销书「认识AI:人工智能如何赋能商业」,喜欢的读者可以点击下面链接直接购买。

「认识AI:人工智能如何赋能商业」「10」大数据基本概念
后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。