数据仓库、数据湖、湖仓一体,究竟有什么区别?( 八 )

  • Spark作业提供全托管式Spark计算特性:用户可通过交互式会话(session)和批处理(batch)方式提交计算任务,在全托管Spark队列上进行数据分析 。具体内容请参考《数据湖探索API参考》 。
  • 多数据源分析:
    • Spark跨源连接:可通过DLI访问CloudTable,DWS,RDS和CSS等数据源 。具体内容请参考《数据湖探索用户指南》 。
    • Flink跨源支持与多种云服务连通,形成丰富的流生态圈 。数据湖探索的流生态分为云服务生态和开源生态:具体内容请参见《数据湖探索开发指南》 。
      • 云服务生态:数据湖探索在Flink SQL中支持与其他服务的连通 。用户可以直接使用SQL从这些服务中读写数据,如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等 。
      • 开源生态:通过增强型跨源连接建立与其他VPC的网络连接后,用户可以在数据湖探索的租户独享队列中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等 。
  • BI工具
    • 对接永洪BI:与永洪BI对接实现数据分析 。具体内容请参考《数据湖探索开发指南》 。
  • 支持地理空间查询 。具体内容请参考《数据湖探索开发指南》 。
  • 5.3应用场景 
    (1)大数据ETL处理
     
    • 大数据ETL:具备TB~EB级运营商数据治理能力,能快速将海量运营商数据做ETL处理,为分布式批处理计算提供分布式数据集 。
    • 高吞吐低时延:采用Apache Flink的Dataflow模型,高性能计算资源,从用户自建的Kafka、MRS-Kafka、DMS-Kafka消费数据,单CU每秒吞吐1千~2万条消息 。
    • 细粒度权限管理:P公司内部有N个子部门,子部门之间需要对数据进行共享和隔离 。DLI支持计算资源按租户隔离,保障作业SLA;支持数据权限控制到表/列,帮助企业实现部门间数据共享和权限管理 。
     
    数据仓库、数据湖、湖仓一体,究竟有什么区别?

    文章插图
     
    (2)异构数据源联邦分析
     
    • 多源数据分析免搬迁:关系型数据库RDS中存放车辆和车主基本信息,表格存储CloudTable中存放实时的车辆位置和健康状态信息,数据仓库DWS中存放周期性统计的指标 。通过DLI无需数据搬迁,对多数据源进行联邦分析 。
    • 数据分级存储:车企需要保留全量历史数据支撑审计类等业务,低频进行访问 。温冷数据存放在低成本的对象存储服务OBS上,高频访问的热数据存放在数据引擎(CloudTable和DWS)中,降低整体存储成本 。
    • 告警快速敏捷触发服务器弹性伸缩:对CPU、内存、硬盘空间和带宽无特殊要求 。
     
    (3)海量日志分析
     
    • 高效的Spark编程模型:使用Spark Streaming直接从DIS中获取数据,进行数据清理等预处理操作 。只需编写处理逻辑,无需关心多线程模型 。
    • 简单易用:直接使用标准SQL编写指标分析逻辑,无需关注背后复杂的分布式计算平台 。
    • 按需计费:日志分析按实效性要求按周期进行调度,每次调度之间存在大量空闲期 。DLI按需计费只在使用期间收费,成本较独占队列降低50%以上 。
    六.Dremio(产品定位有差异)6.1公司简介 
    Dremio由MapR的前员工:Tomer Shiran(CEO)和Jacques Nadeau(CTO)于2015年创立 。融资总额为4500万美元 。其总部位于美国,2017年发布了v1.0产品,客户包括帝亚吉欧(Diageo)、微软、瑞银、Nutanix和皇家加勒比游轮公司 。
    数据仓库、数据湖、湖仓一体,究竟有什么区别?

    文章插图
     
    6.2产品架构
    Dremio是一款DaaS(Data-as-a-Service)数据即服务平台,可对接多类数据源来进行BI分析,该产品直接使用数据湖的源数据进行快速访问以达到直接进行数据分析而不经过数据的清洗、处理、加工、建模等方式 。数据湖的意思就是将不同存储类型、不同种类的数据汇聚在一起,这个存储集群统一对外就是一个数据湖了 。而Dremio通过直接在云数据湖存储中进行实时的、交互式的查询来释放数据价值 。


    推荐阅读