来源 Shutterstock
当我们谈论物联网时,首先想到的是有一盏智能灯,当外面天黑时在你的院子里打开(对于那些有院子的人)。
对我来说,这是从一个智能助手(Alexa)开始的,尽管它比一个简单的灯更复杂,但这种类型的技术背后的潜力有时让我想知道,通过利用这些类型的东西,我们可以在生活中改善什么。不甘心,我开始添加继电器、Xbox、智能路由器等,我的房子变成了半自动的东西。
不幸的是,到了最后,这还不够--作为一个数据爱好者,我又研究了一下物联网,并认识到它们与数据架构有很多的协同作用。因此,不再赘述,我将分享我围绕物联网架构的一些想法,跨越我对Lambda和Kappa架构的一点认识。
从左到右看,我们有一个物联网数据架构的多个层次。
数据来源
这是物联网数据架构的第一层,我们的来源可以分成由几种类型的数据组成。
- 遥测。通过使用智能手机、平板电脑、可穿戴设备、传感器等加载到网络。
- API。主要用于解决业务需求、客户信息或静态信息。这种类型的来源可以由CRM、ERP或用于整合的API网关来代表。
- 关系型数据。可用于数据充实的数据来源,包含核心系统或遗留的客户系统等信息。
数据摄取
数据事件流
当我们谈论事件流时,半结构化数据是非常常见的,它以JSON或XML有效载荷的形式被摄取,这些有效载荷利用了队列和其他一些协议的使用。
这种类型的数据摄取最常用的协议是MQTT,它使用发布/订阅方法。基本上包括一个主题名称,同时向MQTT代理发布数据。
然后,这些主题负责为经纪人提供路由信息,需要每个想要接收该特定主题消息的客户的订阅。代理商保证将所有与主题相匹配的消息传递给客户端。
可以使用其他类型的协议,如COAP(受限应用协议)、AMQP(高级消息排队协议)、HTTP和DDS(数据分发服务)。
流输入技术的例子
批量/API摄取
这种类型的数据摄取包括定期收集和分组数据并将其发送到目标系统。组可以根据任何逻辑顺序、某些条件的激活或简单的时间表来处理。这种类型的摄取通常用于使用CDC(变化数据捕获)、快照或Deltas从关系数据库加载数据,因为它通常更容易和更实惠。
批量输入/API输入的技术实例
流处理
考虑到所展示的图表是基于Lambda架构的,流媒体层将只存储短期信息,这些信息将被转移到批处理层进行进一步处理(复杂性递增、历史比较等)。
通过流处理,数据在到达时就被处理,在需要实时数据分析时非常有用。处理是立即进行的,但它只适合于较简单的分析功能。
这些是可以包括在这个处理中的任务。
- 转化 - 它包括从物联网设备和其他来源收集的数据的转换。在这种转换之后,产生的数据被转移到进一步的分析中。
- 数据充实--数据充实过程是将收集到的原始数据与其他数据集相结合的操作,以获得快速的洞察力。
- 短期存储--以原始格式存储数据,并在其转换/丰富后,能够对数据进行快速I/O。这就是为什么建议使用无SQL或文档数据库。
流处理/存储的技术实例
批量处理
数据存储
数据湖是一个以自然格式存储的数据库,通常是以Blobs或文件形式存储。它可以按原样存储数据,而不必首先对其进行结构化处理,并运行不同类型的分析--从仪表盘和可视化到大数据处理、实时分析和机器学习技术,以指导更好的决策。意思是说,是一个利用分布式计算能力来存储和处理海量数据的计算集群。通常情况下,它由以下几个区域组成。
- 原始区。原始数据被摄入分布式文件系统的着陆区。
- 策划区。存储的数据已被清理和修改为确定的符合模式。
我们应该考虑到,在上述两层之上,总有一个数据质量层可以/应该被创建,以跟踪我们的数据,并告知业务用户需要进行的任何修正。
数据存储的技术实例
处理/转换和数据提供
转换,企业数据仓库和数据
转化是将数据从一种格式转换为另一种格式的过程。数据往往驻留在整个企业的不同位置和格式,为此,有必要进行数据转换,以确保来自一个应用程序或数据库的数据对其他应用程序和/或数据库是可理解的。业务规则的应用也可能要求需要进行数据转换。
此外,EDW或企业数据仓库被用来以综合方式存储企业数据,以便能够为战术和战略报告提供数据。EDW提供了一个单一的、全面的当前和历史信息的来源。在数据集市上,它们是数据仓库的简单子集,通常面向单一主题或功能区。一个EDW可以被分割成不同的数据集市,因为每一个数据集市都是专门针对一个特定的主题或功能领域。数据可以被汇总、转换和规范化。
请注意,一些用于批处理/API摄取的技术可以在这些层中执行ETL(提取、转换和加载)。
处理/数据提供/数据质量的技术实例
高级分析/机器学习
高级分析是分析功能,涉及使用现代数据挖掘、模式匹配、数据可视化和预测建模工具,以产生分析和算法,帮助企业做出更好的决策。这些工具允许用户使用不同的方法、算法和技术来分析数据,通常需要编码技能。
高级分析/机器学习的技术实例
数据消费
数据消费层旨在通过一套分析数据和展示信息的工具来提供信息,以帮助终端用户做出更明智的商业决策。
此外,发生在整个企业的分析活动主要利用结构化数据、孤立的数据存储、数据提取、专有工具和各种编程语言。传统的分析方法可以从数据湖或数据存储库中获取。
数据消费的技术实例
企业数据管理
这个话题是你可以和别人围绕数据进行的最普遍和最广泛的对话之一。它包含了从数据架构到数据治理,甚至是元数据管理或协调的一切。
我不会深究这个问题,但当我们谈论数据管理时,需要记住的是它可以被划分为几个功能。
- 数据治理
- 数据整合与互操作性
- 数据质量管理
- 元数据管理
- 文件和内容管理
- 仓储、BI、ML和数据科学
- 数据架构
- 数据建模
- 数据存储、数据湖和运营
- 数据安全
- 参考和主数据
要了解更多关于数据管理的信息,我建议你快速浏览一下 DAMA-DMBOK.尽管如此,我还是要给你留下一些可以适合这个空间的技术。
涵盖部分数据管理功能的技术实例
结论和使用案例
资料来源:麦肯锡
物联网是当今的一个主要趋势,就像我们在图表中看到的那样,以跨行业的方式存在着巨大的经济影响。
有一个用例,我往往很喜欢。办公室占用率。
随着COVID-19的限制和远程工作的普遍化,在办公桌上安装传感器可以为那些仍然喜欢在办公室工作的员工带来很多价值。这样我就知道办公设施是否拥挤,是否能享受到新鲜空气
免责声明:这篇文章反映了我的个人意见、建筑观点和经验,应予以相应处理。
评论留言