腾讯大数据平台十年四次升级:从引进到自研,再到全面开源

大数据
后台-插件-广告管理-内容页头部广告(手机)

在11月6日召开的Techo开发者大会上,腾讯云副总裁、腾讯数据平台部总经理蒋杰表示,经过10年的积累,腾讯大数据平台的算力资源池目前已有超过20万台的规模,每天实时数据计算量超过30万亿条,腾讯已经成为中国实时数据计算量最大的公司。

而这背后,则是腾讯大数据平台技术过去10年的不断演进。据蒋杰介绍,腾讯的数据量在短短5、6年时间增长了几千倍,目前每天产生的数据量超过几十万亿条数据在产生。为了应对这种爆炸式增长,腾讯走出了一条技术引进+改造+自研的道路,在过去10年间,腾讯大数据平台已经经历了四代演进。

蒋杰表示,腾讯大数据平台的第一代是在2009年至2011年期间,以Hadoop为核心的离线计算时代。当时,腾讯基本还是拿来主义,在开源社区的基础上进行一些局部优化。

第二代是2012至2014年期间,这时候腾讯具备了一些开发能力,可以在Spark、Storm的基础上重写部分核心模块,从能力上来看,这时候的大数据平台已经可以从离线做到实时。

第三代则是2015年至2018年,这期间,腾讯已经进入到了AI的时代,它在机器学习和深度学习上做了很多的优化,正式从原来的部分改造走向了纯自研时代。

据蒋杰介绍,腾讯从无到有研发了分布式的机器学习引擎Angel,以及一站式AI开发平台智能钛TI,用来解决数据训练和算法的问题。目前,Angel已经发展到3.0版本,能支持万亿维度,也可以兼容Spark、PyTorch、TensorFlow等生态。此外,Angel今年还新增了对深度学习、图计算等的支持。

而以2019年为元年的第四代,腾讯正在研究以批流融合、ABC融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。

蒋杰表示,从开始的技术引进、局部优化到如今的自主创新,腾讯的大数据技术也在实践中不断完善和创新。“十年前,腾讯管理几百个节点都很困难,调度性能差,规模上不去。后来为了有效解决计算能力和大规模集群问题,腾讯自研调度器,相对原生调度器性能提升150倍,大大提升了集群可扩展性。现在,腾讯大数据平台每天有1500万个分析任务,每天数据接入条数达35万亿条数据。”

当天,腾讯还宣布正式开源资源管理平台核心TKE和分布式数据库TBase,两个月前,腾讯刚刚将其实时数据采集平台TubeMQ开源,并捐献给Apache社区。蒋杰称,随着在大数据开源领域的开源逐步加速,腾讯正在成为中国大数据领域开源最全面的厂商。

蒋杰告诉21世纪经济报道记者,腾讯的很多技术都来自于开源社区,所以现在做开源也是希望能够更好的回馈社区。虽然做开源对企业来说,会增加一定的人力成本消耗,但是开源同样也能帮助企业聚集更多技术人才。对于腾讯的大数据平台,蒋杰也提出了一个目标,即在未来要实现全面开源。

更多内容请下载21财经APP

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。