中年|Apache Atlas | 元数据管理框架的独舞
正文
一、定位
Apache Atlas:Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目 , 它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力 。
Linkedin WhereHows:WhereHows是LinkedIn公司为了方便员工发现公司内部数据、跟踪数据集移动、查看各种内部工具和服务的动向 , 而开发的用于大数据发现和管理的工具 。 它从不同的源系统中采集元数据 , 并进行标准化和建模 , 从而作为元数据仓库完成血缘分析 。
Linkedin DataHub:WhereHows项目已于2018年重新被LinkedIn公司设计为DataHub项目 。
二、厂商
Apache Atlas:Atlas最早由HortonWorks公司开发 , 用来管理Hadoop项目里面的元数据 , 进而设计为数据治理的框架 。 后来开源出来给Apache社区进行孵化 , 目前得到Aetna , Merck , Target , SAS , IBM等公司的支持进行发展演进 。 因其支持横向海量扩展、良好的集成能力和开源的特点 , 国内大部分厂家选择使用Atlas或对其进行二次开发 。
Linkedin WhereHows&DataHub:由LinkedIn开源 , 并主要在LinkedIn内部使用 。 外部应用比较少 , 暂时没有看到相关应用案例 。
三、功能概览
Apache Atlas:
1)查看数据仓库中表与表之间的血缘依赖
本文插图
2)查看数据仓库表中字段与字段之间的血缘依赖
本文插图
Linkedin WhereHows:
【中年|Apache Atlas | 元数据管理框架的独舞】1)查看数据仓库中表与表之间的血缘依赖
本文插图
2)查看数据集和作业流血缘依赖
本文插图
3)查询元数据
本文插图
Linkedin DataHub:
1)搜索元数据
本文插图
2)查看元数据
本文插图
3)编辑元数据
本文插图
4)查看数据集和作业流血缘依赖
本文插图
四、架构
Apache Atlas:
本文插图
MetaSource Sources:目前 , Atlas支持从以下来源提取和管理元数据:Hbase、Hive、Sqoop、Storm、Kafka
Messaging:除了API之外 , 用户还可以选择使用基于Kafka的消息传递接口与Atlas集成
采集/导出(Ingest/Export):采集组件允许将元数据添加到Atlas 。 同样 , “导出”组件将Atlas检测到的元数据更改公开为事件 。
类型系统(Type System):用户为他们想要管理的元数据对象定义模型 。 Type System称为“实体”的“类型”实例 , 表示受管理的实际元数据对象 。
图形引擎(Graph Engine):Atlas 通过使用图形模型管理元数据对象 。
推荐阅读
- 中年|北斗“一张网”可实现全天候、高精度、自主可控服务
- 中年|Python编程语言有什么独特的优势呢?
- 中年|谈一谈我的十年机械工作经历
- 中年|弹无虚发的背后,国产弹药质量把关人,精密机床都要自叹不如
- 中年|宿迁深圳招商再结硕果,签约项目19个,协议总投资158亿元
- 中年|苹果:已终止Epic Games开发者账号
- 中年|圆满的结局!苹果微信之间不用再二选一,美国政府还是做出让步
- 中年|国家能源集团成功研发矿用卡车能耗制动开关预警装置
- 技术编程|基于Apache Doris的小米增长分析平台实践
- 中年|什么是余压监控系统?余压监控系统如何接线和安装?一篇文章搞懂
