大数据,数据大了,就对吗?

大数据
后台-插件-广告管理-内容页头部广告(手机)
大数据,数据大了,就对吗?

在网络上,有个常见的句式,叫做——

所有行业都值得用XXX改造一遍

比如,所有行业都值得被互联网思维改造一遍;所有行业都值得用数字化技术重新再造一遍;所有产品都值得用AI重做一遍等等等等。

还有一句话,也很流行,那就是——

如果你的手里有一把锤子,你看什么都像是钉子。

本质上,这两句话说的是一个意思。

有意思的地方在于,作为读者,我们的臆想中,自己是改造者,自己是手握锤子的人,而实际上,当“锤子”发展到一定的程度,我们每个人都是钉子。如果不把这个锤子控制好,回过头来,这把锤子会敲到我们每个人的脑袋上。

大数据就是这样的锤子。但是,这个锤子并不完美。

现在看,大数据这把锤子,有两个问题。

  • 第一个问题是,大数据虽然足够得大,但是数据采用并不准。
  • 第二个问题是,大数据加工数据的算法不透明,这个过程不会告诉你。

让我们一个个的来看看。

01

采样偏差

大数据,数据大了,就对吗?

大数据算法的一个问题是,存在采样偏差

打个极端的比方。假设一个外星人直接降落到了一个幼儿园,而后得出了一个结论说:“这个星球上的人绝大多数是小孩。”

虽然正常的数据分析中得到的数据没有这么极端,但是经常也会有很多暗数据的存在,也就是数据无法显示他们的存在,但是他们却有很大的影响力。

就像是在一个调查统计中,大部分人选择方案A,但是那个有一票否决权的人支持方案B,而这个家伙是不会参与名义调查的。

再比如,在进行财富或收入调查时,高收入者可能更加隐私敏感,更不愿意分享自己的财务信息。这可能导致高收入人群在样本中的代表性不足,进而引起调查数据偏低。

还有,有些食品安全问题可能与季节有关,例如某些寄生虫和细菌在温暖季节更活跃。如果只在冬季进行检测,可能会低估这些风险。

这个问题虽然是客观存在的,但是解决起来可能并不是太复杂。很多时候,遇到问题往往是没有意识到这个问题会存在。一旦意识到了,很多问题就变成了技术问题,这就相对更简单了。

技术问题可以用技术手段解决。比如,采样偏差可以通过多元采样、长期跟踪、分层抽样、专家咨询、敏感度分析以及社交媒体挖掘等等方法进行解决。

第二个问题解决起来又没那么容易,本质上,这是个多方博弈的过程。

02

算法不透明

大数据,数据大了,就对吗?

大数据算法的第二个问题是,算法不透明。这就没有办法通过广泛的反馈来找到问题,进行真实的迭代。

算法不透明涉及的是算法工作原理、决策过程和数据来源的不可见性。这种缺乏透明度可能在许多情况下产生问题。

如果算法用于人事招聘、信贷评估或法律判决等敏感领域,不透明可能导致不公平或歧视性的决策。

缺乏透明度可能削弱人们对技术的信任,从而阻碍了创新和进步。在法律框架下,不透明的算法决策可能会导致责任归属不明确,从而对受害者和社会产生负面影响。不透明可能是由于多种原因造成的,包括商业秘密、技术复杂性、缺乏规范和监管等。

DeepMind,一家属于Google的人工智能公司,与英国国民健康服务体系(NHS)合作,使用算法分析患者数据,旨在改善医疗服务和预测疾病。这一合作最初的目的是协助监测和诊断肾功能障碍等疾病。

DeepMind的合作涉及大量敏感的患者数据,包括很多和个人隐私相关的数据等。虽然这些数据用于分析和改善医疗服务,但它们的处理方式引发了隐私担忧。合作协议和算法中具体工作的细节未向公众充分披露。缺乏透明度导致了公众对项目的理解和信任的缺失。

解决算法不被信任的方法,就是要增加透明度。公开,接受社会监督,才是可持续的大道。未来的技术创新需要更加强调伦理、透明度和社会参与。不仅需要技术解决方案,还需要合适的法规、监管机构的积极参与,以及广泛的社会对话,以确保技术与社会价值和期望相一致。

03

智能开放

大数据,数据大了,就对吗?

英国的国家学术院院长,奥诺拉·奥尼尔(Onora O’Neill),提出一个概念叫“智能开放(intelligently open)”。她为解决算法不被信任的问题提出了一个量化的解决方案,这个方案可以称之为A2U2

1.accessible

信息可获得,是公开的。信息应该对那些需要或希望获得的人开放。这涉及到确保信息在物理和技术层面上的可访问性,并消除语言、文化和经济障碍。

2.assessable

结果可评估,允许公众对算法的公正性进行评估和讨论。

3.usable

信息是可用的,别人也能对这个信息进行分析。避免不必要的复杂性和术语,并考虑受众的背景和能力。

4.understandable

算法的决策过程是可以理解的。

比如,欧洲通用数据保护条例(GDPR)就是一个做的好的例子。

该条例于2018年5月25日生效,适用于在欧洲经济区内处理个人数据的所有组织。GDPR规定了人们有权了解个人数据如何被处理,这包括算法决策。如果一个组织使用算法来做出有关个人的决策,比如信用评分或招聘决策,那么个人有权请求解释这些决策是如何做出的。

GDPR强调只收集进行特定处理所需的个人数据,并要求数据的处理方式应该透明。这迫使使用算法的组织必须明确解释数据是如何收集和使用的。对于可能对个人隐私产生高风险的数据处理活动,GDPR要求进行数据保护影响评估。这促使组织在使用算法之前评估风险,并采取适当的缓解措施。

GDPR设立了监管机构,并要求组织可能需要进行第三方审查以确保合规。这为公众和监管机构提供了了解和评估算法处理个人数据方式的途径。

GDPR不仅是一项数据保护法规,也是一项推动算法透明度的关键法规。通过确保透明的数据处理和赋予个人更多的权利,GDPR为如何在保护隐私的同时促进算法透明度提供了一个范例。

这反映了智能开放(intelligently open)理念,既重视开放性,也注重透明度、责任和公众参与。

04

Spotify的算法推荐

大数据,数据大了,就对吗?

还有一个做的很好的案例,是Spotify的算法推荐解释。

通过解释推荐逻辑,Spotify允许用户更好地理解自己的音乐口味是如何反映在推荐内容中的。这一透明度可以让用户觉得更被理解和重视,从而提高用户满意度。

透明度不仅增加了用户对推荐算法的理解,还鼓励了更多的用户反馈。用户能够了解推荐是如何产生的,也更有可能提供有关他们喜欢和不喜欢的内容的反馈。这些反馈可以用来进一步改进和优化推荐系统。

Spotify提供了几个个性化推荐功能,例如Discover Weekly和Release Radar,它们基于用户的历史收听习惯以及其他用户的相似习惯来推荐音乐。

通过这些功能,Spotify不仅展示了其推荐算法的效果,还使用户对其工作原理有了更直观的理解。

Spotify引入了一项功能,允许用户直接查询为什么某首歌被推荐给他们

通过点击简单的按钮,用户可以看到该推荐的基本逻辑,如与其他喜欢的歌曲的相似性等。这一举措使推荐过程更透明,帮助用户理解推荐的来源。

Spotify的推荐系统不仅基于用户的历史数据,还结合了人类专家的观点和社交网络的输入。

通过结合不同的推荐来源,Spotify增强了算法的透明度和可解释性。

Spotify经常与用户社区互动,解释其推荐系统的工作原理,并就用户体验收集反馈。

这种开放的沟通渠道有助于增强透明度,并允许用户对推荐系统的未来方向产生更直接的影响。

Spotify也以开放工作坊、讲座等形式与更广泛的社区互动,包括研究人员、开发人员和其他利益相关者。这些活动提供了深入了解和讨论推荐算法的机会,增强了整体透明度。

透明度并不仅限于解释算法如何工作。Spotify还关注用户数据的透明使用,并提供了一些控制,使用户可以管理自己的隐私设置。这一方面的透明度有助于建立用户对推荐系统的信任。

Spotify的推荐算法首先考虑用户的收听历史和行为。这些数据包括用户喜欢的歌曲、创建的播放列表、频繁收听的艺术家等。

通过分析这些数据,算法可以理解用户的音乐口味,并根据相似用户的喜好推荐新的音乐。Spotify还聘请了音乐专家和策展人员,他们根据自己的专业知识和行业趋势选择和推荐音乐。这些人类选择不仅可以捕捉到算法可能忽略的新兴艺术家和趋势,还可以使推荐更加多元化和有深度。人类专家的输入与算法生成的推荐相结合,确保了推荐内容的广度和准确性。

Spotify允许用户与朋友连接并查看彼此的播放列表和听歌历史。

大数据,数据大了,就对吗?

此外,还有许多社区驱动的播放列表,供用户订阅和贡献。这种社交元素允许推荐不仅基于算法,还基于人际关系和社区共享的审美价值。社交推荐可以带来更富个性化和人性化的推荐体验。通过结合这些不同的元素,Spotify的推荐系统不仅更精确和多元化,还更透明和可解释。用户可以清楚地看到推荐来自哪里,无论是算法、专家策展还是社交网络。这种透明度有助于增强用户的信任和满意度,使他们更可能持续使用服务。

同时,这种公开也不会影响Spotify的竞争力,反而会增加竞争力。为什么这么说呢?尽管Spotify公开了其推荐系统的一些基本方面,但算法的具体实现和运作方式仍然非常复杂。

单纯地知道它结合了用户历史数据、人类专家和社交网络输入,并不足以轻易复制其精确性和效果。该算法的成功不仅在于其组成部分,还在于如何将这些部分结合在一起,以及具体如何进行权衡和调整。这种复杂性为Spotify的竞争力提供了保护。

通过公开和解释其推荐过程,Spotify赢得了用户的信任和满意度。用户明白自己的数据如何被使用,以及推荐是如何产生的,这增加了对平台的信任。这种信任可以增加用户粘性和忠诚度,使他们更倾向于继续使用Spotify,而不是转向竞争对手。

Spotify的推荐算法是其服务的核心特点之一,也是其在音乐流媒体行业中的领先地位的原因之一。

公开其方法并不意味着竞争对手可以轻易复制其成功。

反而,这样做强调了Spotify的创新和领先地位,突出了其与竞争对手的区别。

透明化还可能促进更广泛的合作和创新。通过与用户、开发人员和其他利益相关方分享其方法,Spotify可能吸引了更广泛的社区参与和贡献,从而促进了更大的创新和改进。

大数据,数据大了,就对吗?

当你拿着锤子的时候,别忘了,你眼中的钉子,可能不是真的钉子;有些真的钉子,你可能没有看到;钉子会反抗,钉子也想知道自己为什么要被锤子敲打,钉子认为锤子欠他一个解释;还有,你可能是锤子,同时可能还是别的锤子的钉子。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。