中年|Apache Atlas | 元数据管理框架的独舞


正文
一、定位
Apache Atlas:Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目 , 它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力 。
Linkedin WhereHows:WhereHows是LinkedIn公司为了方便员工发现公司内部数据、跟踪数据集移动、查看各种内部工具和服务的动向 , 而开发的用于大数据发现和管理的工具 。 它从不同的源系统中采集元数据 , 并进行标准化和建模 , 从而作为元数据仓库完成血缘分析 。
Linkedin DataHub:WhereHows项目已于2018年重新被LinkedIn公司设计为DataHub项目 。
二、厂商
Apache Atlas:Atlas最早由HortonWorks公司开发 , 用来管理Hadoop项目里面的元数据 , 进而设计为数据治理的框架 。 后来开源出来给Apache社区进行孵化 , 目前得到Aetna , Merck , Target , SAS , IBM等公司的支持进行发展演进 。 因其支持横向海量扩展、良好的集成能力和开源的特点 , 国内大部分厂家选择使用Atlas或对其进行二次开发 。
Linkedin WhereHows&ampDataHub:由LinkedIn开源 , 并主要在LinkedIn内部使用 。 外部应用比较少 , 暂时没有看到相关应用案例 。
三、功能概览
Apache Atlas:
1)查看数据仓库中表与表之间的血缘依赖
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

2)查看数据仓库表中字段与字段之间的血缘依赖
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

Linkedin WhereHows:
【中年|Apache Atlas | 元数据管理框架的独舞】1)查看数据仓库中表与表之间的血缘依赖
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

2)查看数据集和作业流血缘依赖
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

3)查询元数据
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

Linkedin DataHub:
1)搜索元数据
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

2)查看元数据
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

3)编辑元数据
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

4)查看数据集和作业流血缘依赖
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

四、架构
Apache Atlas:
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

MetaSource Sources:目前 , Atlas支持从以下来源提取和管理元数据:Hbase、Hive、Sqoop、Storm、Kafka
Messaging:除了API之外 , 用户还可以选择使用基于Kafka的消息传递接口与Atlas集成

采集/导出(Ingest/Export):采集组件允许将元数据添加到Atlas 。 同样 , “导出”组件将Atlas检测到的元数据更改公开为事件 。
类型系统(Type System):用户为他们想要管理的元数据对象定义模型 。 Type System称为“实体”的“类型”实例 , 表示受管理的实际元数据对象 。
图形引擎(Graph Engine):Atlas 通过使用图形模型管理元数据对象 。


推荐阅读