数据仓库、数据湖、湖仓一体,究竟有什么区别?( 五 )

  • 字段转换支持去隐私、字符串操作、日期操作等常用字段的数据转换功能 。
  • 文件加密在迁移文件到文件系统时,CDM支持对写入云端的文件进行加密 。
  • MD5校验一致性支持使用MD5校验,检查端到端文件的一致性,并输出校验结果 。
  • 脏数据归档支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据单独归档到脏数据日志中,便于用户查看 。并支持设置脏数据比例阈值,来决定任务是否成功 。
  • 3.3数据开发 
    使用数据开发模块,用户可进行数据管理、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程 。
    数据仓库、数据湖、湖仓一体,究竟有什么区别?

    文章插图
     
    支持的功能
    说明
    数据管理
    支持管理DWS、DLI、MRS Hive等多种数据仓库 。支持可视化和DDL方式管理数据库表 。
    脚本开发
    提供在线脚本编辑器,支持多人协作进行SQL、Shell、Python/ target=_blank class=infotextkey>Python脚本在线代码开发和调测 。支持使用变量和函数 。
    作业开发
    提供图形化设计器,支持拖拉拽方式快速构建数据处理工作流 。预设数据集成、SQL、Shell等多种任务类型,通过任务间依赖完成复杂数据分析处理 。支持导入和导出作业 。
    资源管理
    支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源 。
    作业调度
    支持单次调度、周期调度和事件驱动调度,周期调度支持分钟、小时、天、周、月多种调度周期 。
    运维监控
    支持对作业进行运行、暂停、恢复、终止等多种操作 。支持查看作业和其内各任务节点的运行详情 。支持配置多种方式报警,作业和任务发生错误时可及时通知相关人,保证业务正常运行 。
    3.4总结
    华为的数据湖解决方案比较完整,DLI承担了所有的数据湖构建、数据处理、数据管理、数据应用的核心功能 。DLI最大的特色是在于分析引擎的完备性,包括基于SQL的交互式分析以及基于Spark+Flink的流批一体处理引擎 。在核心存储引擎上,DLI依然通过内置的OBS来提供,和AWS S3的能力基本对标 。华为数据湖解决方案在上下游生态上做的比AWS相对完善,对于外部数据源,几乎支持所有目前华为云上提供的数据源服务 。
    DLI可以与华为的CDM(云数据迁移服务)和DIS(数据接入服务)对接:1)借助DIS,DLI可以定义各类数据点,这些点可以在Flink作业中被使用,做为source或者sink;2)借助CDM,DLI甚至能接入IDC、第三方云服务的数据 。
    为了更好的支持数据集成、数据开发、数据治理、质量管理等数据湖高级功能,华为云提供了DAYU平台 。DAYU平台是华为数据湖治理运营方法论的落地实现 。DAYU涵盖了整个数据湖治理的核心流程,并对其提供了相应的工具支持;甚至在华为的官方文档中,给出了数据治理组织的构建建议 。DAYU的数据治理方法论的落地实现如图11所示(来自华为云官网) 。
    四、阿里云数据湖方案
    对象存储 OSS 是基于阿里云自研的分布式存储引擎——盘古搭建,提供体系化的数据采 力,支持结构化/半结构化/非结构化数据源 。体系由数据湖对象存储 OSS、云原生数据湖分析 DLA、数据湖构建 DLF、E-MapReduce、 Works 等产品强强组合,在存储与计算分离架构下,提供“湖存储”、“湖加速”、“湖计算”的企业级数据湖解决方案 。
    数据仓库、数据湖、湖仓一体,究竟有什么区别?

    文章插图