我们已经进入了数据时代。我们在线甚至离线所做的一切都会留下数据中的痕迹 - 从Cookie到社交媒体资料。那么真的有多少数据?我们每天处理多少数据?欢迎来到Zettabyte时代。
1. Zettabyte时代
数据以位和字节为单位。一位包含值0或1.八位构成一个字节。然后我们有千字节(1,000字节),兆字节(1000²字节),千兆字节(1000字节),太字节(1000⁴字节),千兆字节(1000⁵字节),exabytes(1000⁶字节)和zettabytes(1000⁷字节)。
思科估计,2016年我们的年度互联网流量总量已超过一个zettabyte,这是我们在万维网上上传和共享的所有数据,其中大部分是文件共享。zettabyte是存储容量的度量,等于1000⁷(1,000,000,000,000,000,000,000字节)。一个zettabyte等于千EB,十亿TB或万亿GB。换句话说 - 那就是很多!特别是如果我们考虑到互联网甚至不到40岁。思科还估计,到2020年,年流量将增长到超过2个zettabytes。
互联网流量只是整个数据存储的一部分,其中还包括所有个人和商业设备。我们现在在2019年所拥有的总数据存储容量的估计值有所不同,但已经在10-50 zettabyte 范围内。到2025年,估计这将增长到150-200 zettabytes。
绝对数据创建只会在未来几年内得到巩固,所以您可能会想:数据存储是否有限制?不是真的,或者更确切地说,有限制,但是距离很远,以至于我们不会很快到达它们附近。例如,只需一克DNA即可存储700TB的数据,这意味着我们可以存储我们现在拥有的1500千克DNA的所有数据 - 密集包装,它可以放入普通的房间。然而,这与我们目前能够制造的产品相差甚远。制造的最大硬盘驱动器有15TB,最大的SSD达到 100TB。
术语大数据是指对于普通计算设备来说太大或太复杂的数据集。因此,它与市场上可用的计算能力有关。如果你看一下最近的数据历史,那么在1999年我们总共有1.5艾字节的数据和1千兆字节被认为是大数据。早在2006年,总数据估计为160艾字节 - 7年内增加1000%。在我们的Zettabyte时代,1千兆字节不再是真正的大数据,从至少1TB开始谈论大数据是有意义的。如果我们用更多的数学术语来表达它,那么就数据集而言,谈论大数据似乎很自然,这些数据集超过了世界上创造的总数据除以1000³。
2. Petaflops
要使数据有用,存储它是不够的,您还必须访问它并进行处理。可以通过每秒指令数(IPS)或每秒浮点运算(FLOPS)来测量计算机的处理能力。虽然IPS比FLOP更广泛,但它也不太精确,并且取决于所使用的编程语言。另一方面,FLOPS很容易想象,因为它们与我们每秒可以进行的乘法/除法的数量直接相关。例如,一个简单的手持式计算器需要几个FLOPS才能正常工作,而大多数现代CPU的范围为20-60 GFLOPS(gigaFLOPS =1000³FLOPS)。IBM在2018年建立的破纪录计算机达到了122.3 petaFLOPS(1000⁵FLOPS),比普通PC快了几百万(200 petaflops) 在一个高峰表现)。
GPU的浮点运算达到数百GFLOPS(大众市场设备),性能更佳。当你研究专业的架构时,事情变得越来越有趣。最新的趋势是构建硬件以促进机器学习,最着名的例子是Google的TPU ,达到 45 teraFLOPS(1000⁴FLOPS)并且可以通过云访问。
如果您需要执行大型计算并且没有自己的超级计算机,那么下一个最好的方法是租用它,或者在云上进行计算。亚马逊通过P3为您提供最多1 petaFLOPS,而Google提供了一个速度高达11.5 petaFLOPS的TPU。
3.人工智能和大数据
让我们把它们放在一起:你有数据,你有计算能力来匹配它,所以是时候使用它们来获得新的见解。要真正从两者中受益,你必须转向机器学习。人工智能处于数据使用的最前沿,有助于预测天气,交通或健康(从发现新药到早期发现癌症)。
AI需要通过培训来执行专门的任务,并且查看需要多少培训才能实现最佳性能,这是计算能力与数据的重要指标。OpenAI从2018年开始就有一份很好的报告,评估这些指标,并得出结论,自2012年以来,以千万亿次/天(petaFD)计算的人工智能培训每3.5个月翻一番。一个petaFD包括每天执行1000⁵神经网络操作一天,或总共约10²⁰操作。这个指标的优点在于它不仅需要网络架构(需要多种操作的形式),还要将其与当前设备上的实现(计算时间)连接起来。
您可以通过查看以下图表来比较人工智能最近进展中使用的petaFD数量:
领导者不出所料,DeepMind的AlphaGo Zero使用了超过1,000 petaFD或1 exaFD。在资源方面真的是多少钱?如果您使用相同的硬件自行复制培训,您可以轻松地在这里花费近300万美元进行详细估算。为了对其进行较低的估计,基于上面的图表,1,000 petaFD至少就像使用最好的可用Amazon P3一样。目前的价格为每小时31.218美元,这将给出31.218 x 24(小时)x 1,000(天)= 749,232美元。这是最低限度,因为它假设一个神经网络操作是一个浮点操作,并且您在P3上获得与DeepMind使用的不同GPU / TPU相同的性能。
这表明AI需要大量的力量和资源才能进行培训。有一些机器学习最新进展的例子,在计算能力或数据方面不需要太多,但通常情况下,额外的计算能力是非常有用的。这就是为什么建立更好的超级计算机和更大的数据中心是有道理的,如果我们想要开发人工智能,从而发展我们的文明作为一个整体。您可以像大型强子碰撞器一样考虑超级计算机- 您可以构建越来越大的碰撞器,以便您可以更深入地了解我们的宇宙。计算能力和人工智能也是如此。我们不了解自己的情报或我们如何执行创造性任务,但增加FLOPS的规模可以帮助解开这个谜团。
拥抱Zettabyte时代!而且,Yottabyte时代不远就能从中获得更好的利润。
评论留言