知乎资深工程师口述:大数据平台初学者如何入门?

大数据
后台-插件-广告管理-内容页头部广告(手机)

从大数据时代开启的第一天起,我们的生活注定被数据灌满了。这是一个人人都需要隐私但又不懂得在乎和保护隐私的时代,几乎所有人都在发布数据,把它们挂在网上或传播到公共平台。人们既向外发散,又向内吸收,自觉或不自觉地收集各种各样的数据信息。——《大数据在中国》

人们不禁发问:大数据时代,人都是在“裸奔”吗?

知乎,作为一个知识社交平台,目前拥有8400万注册用户,每天产生的数据量多得惊人。这些传来传去的信息中又有谁清楚到底隐藏了多大价值呢?知乎无疑是上述问题的最佳答主之一,这也被笔者列在了本次采访问题之中,而这位答题者正是知乎大数据平台架构师王雨舟!

知乎资深工程师口述:大数据平台初学者如何入门?

王雨舟

王雨舟,在大数据平台以及实时计算上有丰富经验,现任知乎大数据平台负责人,带领团队驱动知乎业务发展。知乎增长团队早期负责人,对增长方法论以及黑科技有深入理解与实战经验。曾任豌豆荚高级研发工程师,主要负责大数据分析平台研发,知识图谱,实时计算平台等,对技术热爱并乐于交流和分享,擅长的技术包括:Hadoop,Spark,Druid,Akka等。

大数据时代,人都是在“裸奔”吗?

大数据具备3V特征,即速度(Velocity)快、容量(Volume)大和种类(Variety)多。大数据时代,企业可能会通过数据分析结果辅助决策,这就会出现一个”数据挖掘“问题,数据从哪里来呢?

王雨舟认为,数据的价值并不与数据规模直接相关,一家企业是否可以从数据中获取有效洞察取决于这家企业对数据的重视程度。

知乎过去几年使用谷歌的GA,一个以页面和会话为核心的分析引擎,由于其无法支撑公司的数据体系,知乎在2016年1月份决定开始自研大数据平台。起初,知乎对该平台的定义就不是传统的BI系统或数据分析系统,而着重于整个数据体系的搭建,将数据贯穿知乎整个生产环境。

根据知乎的业务场景对数据源建立数据模型,在此基础上搭建数据平台,进一步做数据挖掘及个性化推荐等。虽然重视数据,但知乎目前所获取的所有数据都是用户授权可公开的信息,并未获取用户隐私数据。

谈到这个问题,王雨舟表示,在这个数字化的时代,很多信息都在云上进行处理,想竭力保护个人隐私变得难上加难。企业应该重视大数据安全问题,因为数据泄露会对用户造成不必要的损伤。其次,做好大数据容灾和备份,加强权限管理,做好内部的数据安全隔离。对个人而言,也应该提高隐私保护意识。

穿好衣服,大数据平台初学者该如何向前奔跑?

知乎目前的大数据平台架构用到了行业内的热门引擎Druid,以实现自定义多维分析和留存分析功能,做到实时数据分析,自定义指标、维度、报表、文件夹、Dashboard,任意 Hive 表导入平台做可视化分析等。同时,Kudu、Spark、Hadoop以及Growth Hacker等都在知乎使用范围之内,与这些技术打交道的这数年里,王雨舟也有了一些自己的心得,希望对该领域的初学者有所帮助。

面对随时可能冒出新框架、工具的大数据平台领域,初学者往往是一头雾水。王雨舟认为,该领域的入门门槛并不是很高,但要想深度理解,一定要结合大量实践。初学阶段可以先从比较常见的框架入手,比如Map Reduce、Spark等,各类框架之间其实是触类旁通的关系。在实战中学会解决bug,并总结经验,循环往复,逐渐就可以认识到一个框架的本质。

采访最后,王雨舟透露,自己平时也会逛逛知乎,回答一些领域内的相关问题。如果初学者在实践过程中遇到问题,也可以在知乎上直接找到他,因为他的账号是实名制的哟!

知乎资深工程师口述:大数据平台初学者如何入门?

作为今年全球独角兽上榜企业之一,知乎与世界分享着知识、经验和见解。我们期待未来可以看到更多知乎在大数据平台架构方面的分享以及实践,让更多志同道合的技术人受益!

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。