大数据有究竟有多大？

2024-04-01 04:37:40 大数据 ℃

后台-插件-广告管理-内容页头部广告（手机）

我们已经进入了数据时代。我们在线甚至离线所做的一切都会留下数据中的痕迹 - 从Cookie到社交媒体资料。那么真的有多少数据？我们每天处理多少数据？欢迎来到Zettabyte时代。

1. Zettabyte时代

数据以位和字节为单位。一位包含值0或1.八位构成一个字节。然后我们有千字节（1,000字节），兆字节（1000²字节），千兆字节（1000字节），太字节（1000⁴字节），千兆字节（1000⁵字节），exabytes（1000⁶字节）和zettabytes（1000⁷字节）。

思科估计，2016年我们的年度互联网流量总量已超过一个zettabyte，这是我们在万维网上上传和共享的所有数据，其中大部分是文件共享。zettabyte是存储容量的度量，等于1000⁷（1,000,000,000,000,000,000,000字节）。一个zettabyte等于千EB，十亿TB或万亿GB。换句话说 - 那就是很多！特别是如果我们考虑到互联网甚至不到40岁。思科还估计，到2020年，年流量将增长到超过2个zettabytes。

互联网流量只是整个数据存储的一部分，其中还包括所有个人和商业设备。我们现在在2019年所拥有的总数据存储容量的估计值有所不同，但已经在10-50 zettabyte 范围内。到2025年，估计这将增长到150-200 zettabytes。

绝对数据创建只会在未来几年内得到巩固，所以您可能会想：数据存储是否有限制？不是真的，或者更确切地说，有限制，但是距离很远，以至于我们不会很快到达它们附近。例如，只需一克DNA即可存储700TB的数据，这意味着我们可以存储我们现在拥有的1500千克DNA的所有数据 - 密集包装，它可以放入普通的房间。然而，这与我们目前能够制造的产品相差甚远。制造的最大硬盘驱动器有15TB，最大的SSD达到 100TB。

术语大数据是指对于普通计算设备来说太大或太复杂的数据集。因此，它与市场上可用的计算能力有关。如果你看一下最近的数据历史，那么在1999年我们总共有1.5艾字节的数据和1千兆字节被认为是大数据。早在2006年，总数据估计为160艾字节 - 7年内增加1000％。在我们的Zettabyte时代，1千兆字节不再是真正的大数据，从至少1TB开始谈论大数据是有意义的。如果我们用更多的数学术语来表达它，那么就数据集而言，谈论大数据似乎很自然，这些数据集超过了世界上创造的总数据除以1000³。

2. Petaflops

要使数据有用，存储它是不够的，您还必须访问它并进行处理。可以通过每秒指令数（IPS）或每秒浮点运算（FLOPS）来测量计算机的处理能力。虽然IPS比FLOP更广泛，但它也不太精确，并且取决于所使用的编程语言。另一方面，FLOPS很容易想象，因为它们与我们每秒可以进行的乘法/除法的数量直接相关。例如，一个简单的手持式计算器需要几个FLOPS才能正常工作，而大多数现代CPU的范围为20-60 GFLOPS（gigaFLOPS =1000³FLOPS）。IBM在2018年建立的破纪录计算机达到了122.3 petaFLOPS（1000⁵FLOPS），比普通PC快了几百万（200 petaflops）在一个高峰表现）。

GPU的浮点运算达到数百GFLOPS（大众市场设备），性能更佳。当你研究专业的架构时，事情变得越来越有趣。最新的趋势是构建硬件以促进机器学习，最着名的例子是Google的TPU ，达到 45 teraFLOPS（1000⁴FLOPS）并且可以通过云访问。

如果您需要执行大型计算并且没有自己的超级计算机，那么下一个最好的方法是租用它，或者在云上进行计算。亚马逊通过P3为您提供最多1 petaFLOPS，而Google提供了一个速度高达11.5 petaFLOPS的TPU。

3.人工智能和大数据

让我们把它们放在一起：你有数据，你有计算能力来匹配它，所以是时候使用它们来获得新的见解。要真正从两者中受益，你必须转向机器学习。人工智能处于数据使用的最前沿，有助于预测天气，交通或健康（从发现新药到早期发现癌症）。

AI需要通过培训来执行专门的任务，并且查看需要多少培训才能实现最佳性能，这是计算能力与数据的重要指标。OpenAI从2018年开始就有一份很好的报告，评估这些指标，并得出结论，自2012年以来，以千万亿次/天（petaFD）计算的人工智能培训每3.5个月翻一番。一个petaFD包括每天执行1000⁵神经网络操作一天，或总共约10²⁰操作。这个指标的优点在于它不仅需要网络架构（需要多种操作的形式），还要将其与当前设备上的实现（计算时间）连接起来。

您可以通过查看以下图表来比较人工智能最近进展中使用的petaFD数量：

领导者不出所料，DeepMind的AlphaGo Zero使用了超过1,000 petaFD或1 exaFD。在资源方面真的是多少钱？如果您使用相同的硬件自行复制培训，您可以轻松地在这里花费近300万美元进行详细估算。为了对其进行较低的估计，基于上面的图表，1,000 petaFD至少就像使用最好的可用Amazon P3一样。目前的价格为每小时31.218美元，这将给出31.218 x 24（小时）x 1,000（天）= 749,232美元。这是最低限度，因为它假设一个神经网络操作是一个浮点操作，并且您在P3上获得与DeepMind使用的不同GPU / TPU相同的性能。

这表明AI需要大量的力量和资源才能进行培训。有一些机器学习最新进展的例子，在计算能力或数据方面不需要太多，但通常情况下，额外的计算能力是非常有用的。这就是为什么建立更好的超级计算机和更大的数据中心是有道理的，如果我们想要开发人工智能，从而发展我们的文明作为一个整体。您可以像大型强子碰撞器一样考虑超级计算机- 您可以构建越来越大的碰撞器，以便您可以更深入地了解我们的宇宙。计算能力和人工智能也是如此。我们不了解自己的情报或我们如何执行创造性任务，但增加FLOPS的规模可以帮助解开这个谜团。

拥抱Zettabyte时代！而且，Yottabyte时代不远就能从中获得更好的利润。

后台-插件-广告管理-内容页尾部广告（手机）

标签：

上一篇：大数据Map和Reduce在Hadoop与Python中有何异同？

下一篇：实战丨央行支付系统大数据应用场景初探

人工智能物联网_17aiot.com

大数据有究竟有多大？

1. Zettabyte时代

2. Petaflops

3.人工智能和大数据

评论留言

我要留言

大数据有究竟有多大？

1. Zettabyte时代

2. Petaflops

3.人工智能和大数据

相关推荐

评论留言

我要留言