中年|Apache Atlas | 元数据管理框架的独舞( 二 )


Titan:目前 , Atlas 使用 Titan 图数据库来存储元数据对象
Metadata Store:采用Hbase来存储元数据
IndexStore:采用Solr来建索引
API:Atlas的所有功能都可以通过REST API提供给最终用户 , 允许创建、更新和删除类型和实体 。 它也是查询和发现通过Atlas管理的类型和实体的主要方法 。
Atlas Admin UI:该组件是一个基于Web的应用程序 , 允许数据管理员和科学家发现和注释元数据 。 Admin UI提供了搜索界面和类SQL的查询语言 , 可以用来查询由Atlas管理的元数据类型和对象 。
Tag Based Policies:权限管理模块 。
Business Taxonomy:业务分类
Linkedin WhereHows:

中年|Apache Atlas | 元数据管理框架的独舞
本文插图

WhereHows支持从HDFS、Teradata、Oracle、HIve、Elastic Search、Druid的数据集和Azkaban、Oozie的作业中将元数据的抽取、加载(ETL)至自身的Repo库 。 源系统可分为数据集类源系统和作业类源系统 。
数据集类源系统:以Hive为例 , WhereHows从Hive的元数据库MySQL中抽取元数据并存储在自身的元数据仓库中 , 从而最终可以从WhereHows中查看Hive中的元数据信息 , 如Hive中有哪些Database、Database下有哪些表等 。 WhereHows不能直接得到数据集的血缘 , WhereHows中数据集的血缘是从相关作业的分析中得到的 。
作业类源系统:以Azkaban为例 , 假设运行hive任务 , 则WhereHows可以从Azkaban的元数据库中获取作业信息、并从JobHistory获取实际运行的Hive或pig的日志 , 并对这些元数据以及日志数据解析形成血缘 。
Web UI即前端Web组件 , 提供可视化查询功能 。 提供展示元数据的UI , 包括Datasets和Flows两个功能视图 。
REST Endpoint作为服务后端 , 主要提供API接口和执行ETL作业两个功能 。
DataHub:
中年|Apache Atlas | 元数据管理框架的独舞
本文插图

DataHub提供通过直接API调用或Kafka流的形式来摄取元数据 。
元数据从Kafka获取 , 元数据的生成者要生产一个标准化的元数据改变事件(MCE) 。

DataHub通过一组通用数据访问对象(DAO)进一步抽象底层数据系统 , 例如键值DAO、查询DAO和搜索DAO 。 通过键值DAO的任何更新操作都将自动发出元数据审计事件(MAE) 。
五、对比
1)Atlas比WhereHows血缘分析粒度较细 , 支持字段级血缘依赖的跟踪 。 WhereHows仅支持表级 。
2)Atlas与Apache Ranger集成 , 可根据与Atlas中实体相关的分类对数据访问进行授权/数据屏蔽 。 而WhereHows缺乏有效的用户、权限管理能力 。
3)WhereHows比Atlas支持的源系统多 。
4)DataHub刚立项不久 , 数据管理方面与WhereHows的特性差不多 , 侧重于元数据的发现(搜索、查询) 。
5)Atlas在同行业中逐渐普及 , 社区活跃度远高于WhereHows和DataHub 。
【来源:飞总聊IT】
声明:转载此文是出于传递更多信息之目的 。 若有来源标注错误或侵犯了您的合法权益 , 请作者持权属证明与本网联系 , 我们将及时更正、删除 , 谢谢 。邮箱地址:newmedia@xxcb.cn


推荐阅读