腾讯大数据平台十年四次升级：从引进到自研，再到全面开源

2024-01-02 06:07:53 大数据 ℃

后台-插件-广告管理-内容页头部广告（手机）

在11月6日召开的Techo开发者大会上，腾讯云副总裁、腾讯数据平台部总经理蒋杰表示，经过10年的积累，腾讯大数据平台的算力资源池目前已有超过20万台的规模，每天实时数据计算量超过30万亿条，腾讯已经成为中国实时数据计算量最大的公司。

而这背后，则是腾讯大数据平台技术过去10年的不断演进。据蒋杰介绍，腾讯的数据量在短短5、6年时间增长了几千倍，目前每天产生的数据量超过几十万亿条数据在产生。为了应对这种爆炸式增长，腾讯走出了一条技术引进+改造+自研的道路，在过去10年间，腾讯大数据平台已经经历了四代演进。

蒋杰表示，腾讯大数据平台的第一代是在2009年至2011年期间，以Hadoop为核心的离线计算时代。当时，腾讯基本还是拿来主义，在开源社区的基础上进行一些局部优化。

第二代是2012至2014年期间，这时候腾讯具备了一些开发能力，可以在Spark、Storm的基础上重写部分核心模块，从能力上来看，这时候的大数据平台已经可以从离线做到实时。

第三代则是2015年至2018年，这期间，腾讯已经进入到了AI的时代，它在机器学习和深度学习上做了很多的优化，正式从原来的部分改造走向了纯自研时代。

据蒋杰介绍，腾讯从无到有研发了分布式的机器学习引擎Angel，以及一站式AI开发平台智能钛TI，用来解决数据训练和算法的问题。目前，Angel已经发展到3.0版本，能支持万亿维度，也可以兼容Spark、PyTorch、TensorFlow等生态。此外，Angel今年还新增了对深度学习、图计算等的支持。

而以2019年为元年的第四代，腾讯正在研究以批流融合、ABC融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究，该平台将具备混合部署、跨域数据共享和边缘计算等能力。

蒋杰表示，从开始的技术引进、局部优化到如今的自主创新，腾讯的大数据技术也在实践中不断完善和创新。“十年前，腾讯管理几百个节点都很困难，调度性能差，规模上不去。后来为了有效解决计算能力和大规模集群问题，腾讯自研调度器，相对原生调度器性能提升150倍，大大提升了集群可扩展性。现在，腾讯大数据平台每天有1500万个分析任务，每天数据接入条数达35万亿条数据。”

当天，腾讯还宣布正式开源资源管理平台核心TKE和分布式数据库TBase，两个月前，腾讯刚刚将其实时数据采集平台TubeMQ开源，并捐献给Apache社区。蒋杰称，随着在大数据开源领域的开源逐步加速，腾讯正在成为中国大数据领域开源最全面的厂商。

蒋杰告诉21世纪经济报道记者，腾讯的很多技术都来自于开源社区，所以现在做开源也是希望能够更好的回馈社区。虽然做开源对企业来说，会增加一定的人力成本消耗，但是开源同样也能帮助企业聚集更多技术人才。对于腾讯的大数据平台，蒋杰也提出了一个目标，即在未来要实现全面开源。

更多内容请下载21财经APP

后台-插件-广告管理-内容页尾部广告（手机）

标签：

上一篇：地理信息时空大数据专区：锚定“五个全国率先” 释放数据价值潜能

下一篇：返回列表

人工智能物联网_17aiot.com

腾讯大数据平台十年四次升级：从引进到自研，再到全面开源

评论留言

我要留言

腾讯大数据平台十年四次升级：从引进到自研，再到全面开源

相关推荐

评论留言

我要留言