数据仓库、数据湖、湖仓一体,究竟有什么区别?( 六 )

  • 数据分析与治理,对企业数据的可用性、完整性和安全性全面管理 。数据湖采用API接口让数据湖实现多引擎的统一元数据管理和权限管理 。
    • MaxCompute :MaxCompute 是一项面向分析的大数据计算服务,它以 Serverless 架构提供快速、全托 管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高 效的分析处理海量数据 。
    • 云原生数据湖分析(Data Lake Analytics,简称 DLA) 采用全新的云原生+Serverless+ 据库与大数据一体化架构,支持企业级权限管理、高效入湖、 ETL、机器学习、流计算与交互式分析等 。核心组 包括:统一Meta、Lakehouse、Serverless Spark、Serverless Presto.
    • 机器学习 PAI:机器学习 PAI(Platform of Artificial Intelligence)是阿里云面向企业客户及开发者,提供 轻量化、高性价比的云原生机器学习平台支持百亿特征、千亿样本规模加速训练,百余种落地场景,全面提升机器 学习工程效率
    • 日志服务SLS,日志大数据解决方案,一站式提供数据收集、清洗、分析、可视化和告警功能 。
    • dataworks,基于EMR/MC-Hologres 等大数据计算引擎,为客户提供专业高效、安全可 的一站式大数据开发与治理平台 。
  • 4.1数据湖架构 
    数据仓库、数据湖、湖仓一体,究竟有什么区别?

    文章插图
     
    数据仓库、数据湖、湖仓一体,究竟有什么区别?

    文章插图
     
    4.2数据湖构建(Data Lake Formation,简称 DLF)
    4.2.1产品架构
    阿里云数据湖构建(Data Lake Formation,简称 DLF)是一款全托管的快速帮助用户构建云上数据湖及Lakehouse的服务,为客户提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力 。DLF可以帮助用户快速完成云原生数据湖及Lakehouse方案的构建与管理,并可无缝对接多种计算引擎,打破数据孤岛,洞察业务价值 。
     
    • 元数据管理,通过控制台查看和管理数据湖中元数据库和表的信息,通过API的方式操作元数据,集成到第三方应用服务 。并支持多版本管理、可通过元数据发现和入湖任务自动生成元数据 。
    • 数据入湖,通过入湖任务的方式将分散在MySQL、Kafka和PolarDB等数据统一存储,入湖过程如果没有定义元数据信息,入湖任务会自动生成元数据的表信息 。
    • 数据权限管理,可以加强湖上数据权限控制,保障数据安全 。可支持对元数据库、元数据表、元数据列三种粒度的权限 。
    • 数据探索,为您提供一键式数据探索能力,可支持Spark 3.0 SQL语法,可以保存历史查询,预览数据,导出结果,一键生产tpc-ds测试数据集 。
    • 湖管理,将为您提供对湖内数据存储的分析及优化建议,加强对数据生命周期管理,优化使用成本,方便您进行数据运维管理 。
     
    数据仓库、数据湖、湖仓一体,究竟有什么区别?

    文章插图
     
    4.2.2应用场景
     
    • 数据分析场景,通过元数据发现、数据探索能力,可以快速的对OSS内结构化、半结构化数据进行分析、探索 。
    • 结合E-MapReduce、OSS两个产品,DLF协助客户快速构建云上数据湖 。
     
    数据仓库、数据湖、湖仓一体,究竟有什么区别?

    文章插图
     
     
    • 结合MaxCompute、Dataworks、E-MapReduce3个产品,DLF协助客户快速构建湖仓一体架构 。
     
    数据仓库、数据湖、湖仓一体,究竟有什么区别?

    文章插图
     
     
    • 结合Databricks、OSS产品,构建云上全托管Lakehouse数据架构 。
     


    推荐阅读