专题导读:大数据整理
在大数据时代,数据呈现多源、异构、 信息不一致、信息不完整等特点,这会造 成数据不完整、数据质量较低的问题。数 据整理(包括数据发现、数据准备、数据 清洗、数据融合等)旨在整合多源异构数 据,形成高质量的统一数据视图。由于数 据的异质性、开放性,数据整理成为大数 据处理的瓶颈,很多数据分析应用80%以 上的工作都花在了数据整理上。因此如何 实现高效的大数据的智能化整理,已成为 学术界与产业界共同关注的焦点。本专题 “大数据整理”汇集了我国从事大数据处 理方向的部分专家的研究成果,以期与大 家共同探讨该方向的前沿研究与技术发展 趋势。
范举等人的论文《人在回路的数据准备技术研究进展》给出了人在回路数据准 备技术的研究进展,详细分析了基于众包 的数据准备技术,如清洗与集成,并对众包成本做出优化;还总结了交互式数据准备技术,将用户交互引入数据准备中,并通过有效的预测算法来节省数据准备的时间。 最后,对人在回路的数据准备做出了总结, 并探讨了未来的挑战性问题。
丁小欧等人的论文《工业时序大数据质量管理》介绍了工业时序大数据的特点及工业数据质量管理的难点,并对工业时序大数据质量管理的研究现状加以分析、总结,最后提出了时序大数据质量管理方法和系统性能的提升方向。
于明鹤等人的论文《数据管护技术及应用》系统介绍了数据管护的处理过程和 其中的关键技术,给出了几种基于数据管 护的应用,并对其技术特点进行了对比分 析,还对数据管护技术的发展前景和未来挑战进行了总结。
包小源等人的论文《基于数据空间的电子病历数据融合与应用平台》针对电子病历数据的脱敏和集成进行分析,建立了基 于原始数据空间、匿名数据空间、模型数据空间的电子病历数据集成、融合、二次利用平台。
本专题由于篇幅有限,不能涵盖数据 整理的方方面面,希望通过阐述数据整理面临的机遇与挑战,引起各界的关注和进 一步研究,并推动其进一步发展。
客座编辑
李国良(1981- ),男,清华大学计算机科学与技术系教授,计算机软件研究所所长, 主要研究方向为数据库、数据融合分析、大数据挖掘与分析、群智计算。在数据库、 数据挖掘、信息检索领域的顶级会议和期刊上发表论文100余篇,他引7 000余次, 入选爱思唯尔2014—2018年中国高被引学者榜单。主持国家优秀青年基金项目、青年 “973” 项目、国家自然科学基金重点项目等。获得了VLDB Early Career Research Contribution Award(VLDB杰出青年贡献奖,亚洲唯一一位)、IEEE TCDE Early Career Award(IEEE 数据工程领域杰出新人奖,亚洲唯一一位)、青年长江学者、国 家“万人计划”青年拔尖人才、计算机学会青年科学家奖等奖项。担任VLDB Journal、 IEEE TKDE、IEEE Data Engineering Bulletin、ACM Transactions on Data Science、 ACM Data and Information Quality 等期刊编委,多次担任SIGMOD、VLDB、KDD、 ICDE、WWW、IJCAI、AAAI等会议的程序委员会委员。获得KDD’18、ICD’18最佳 论文候选, CIKM’17最佳论文奖、DASFAA’14最佳论文提名奖、APWeb’14最佳 论文奖、EDBT’13大数据比赛冠军。
《大数据》期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。
评论留言