大数据技术概述

大数据
后台-插件-广告管理-内容页头部广告(手机)

随着技术的发展,大数据技术行业已经成为当下最为热门的方向之一,特别时随着国家新一轮“新基建”政策的出台,必将推动大数据技术的普及和关注度。因此,不管是从事软件行业还是非软件行业的工作者都有必要对其有一定了解。

大数据技术的主要目的就是解决困扰人们的大规模数据的存储和计算问题。发展至今已经产生针对不同场景不同要求的多种解决方案框架。

第一代大数据计算引擎:Hadoop系列组件。主要解决了大规模数据的存储和离线数据的计算问题。hadoop的三剑客包括hdfs文件系统,MapReduce并行计算框架和Yarn资源调度器。简单来说,hdfs解决了数据的存储和管理;MapReduce解决了对大数据的离线分析,但是无法满足实时性要求较高的场合;yarn实现了大数据集群的资源管理的功能。以MapReduce为基础,在各大公司和组织的贡献下,涌现出了一批方便的,功能独特的组件,如sqoop,hive,pig,hbase等。

第二代大数据计算引擎:以spark技术为代表。spark是眼下最为炙手可热的框架,它集批量计算,流计算,图计算,机器学习于一身。基于内存的计算模型,使其计算性能远超hadoop组件。

当下国内另一个主流框架flink正成为各大公司的宠儿,在各方的推动下,flink生态越来越健全。flink同样支持流处理、批处理、AI、MachineLearning、图计算等等。特别是在解决实时数据的exactly-once计算(精确一次)具有突出的优势。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。