《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。
图书介绍:数据资产管理核心技术与应用
今天主要是给大家分享一下第四章的内容:
第四章的标题为数据质量的技术实现
内容思维导图如下:
本文是接着
继续往下介绍
4、 常见的开源数据质量管理平台
4.1、 Apache Griffin
Apache Griffin 是一个开源的大数据质量管理系统,底层是基于Hadoop和Spark实现的,支持批处理和流处理模式两种数据质量检测方式,官方网址为:https://griffin.apache.org/,如下图所示,是Apache Griffin 官方地址https://griffin.apache.org/docs/quickstart-cn.html中提供的架构图。
Apache Griffin 的源代码github地址为https://github.com/apache/griffin 《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
从架构图中可以看到
如下图所示,Apache Griffin 的架构图刚好是可以对应到我们前面的数据质量采集流程的。
另外Apache Griffin 也是支持容器化部署的,相关部署介绍请参考:https://github.com/apache/griffin/blob/master/griffin-doc/docker/griffin-docker-guide.md
Apache Griffin 的主要技术栈和开发语言包括
其核心技术架构如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
从图中可以看到其核心技术是通过SpringBoot+Spark来实现的。
4.2、 Qualitis
Qualitis是一个支持多种异构数据源的数据质量监测平台,其设计初衷是用于解决业务系统运行、数据中心建设及数据治理过程中的遇到的各种数据质量问题。
如下图所示,是Qualitis官方地址https://github.com/WeBankFinTech/Qualitis/blob/master/docs/zh_CN/ch1/%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E6%96%87%E6%A1%A3.md#21-%E6%80%BB%E4%BD%93%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1中提供的架构图。
从架构图中可以看到也是包含了质量规则配置、质量任务管理和质量数据采集、质量数据存储和分析等这些核心模块。
在Qualitis官方网址中也提供了总体模块设计图,其模块设计图也是刚好可以对应到我们前面的数据质量采集流程,如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
可以看到数据质量采集的流程其实不管在哪个开源的数据质量平台中,都几乎是一样的,都需要包括