|持续定义Saas模式云数据仓库+实时搜索


一、Why:概述与价值
(一)MaxCompute
我们把MaxCompute定义为SaaS模式的企业级云数据仓库 。 在之前 , 我们可能会认为MaxCompute是一个离线数据处理引擎 , 也就是一个传统的数仓 , 但是MaxCompute所能做的事情要比传统数仓多的多 。 因此 , 我们更倾向于把MaxCompute看成一个数据处理的平台 , 在它上面我们可以做离线数据的处理 , 包括数据库的应用 , 传统数据仓库的应用 , 以及近实时的数据采集和近实时的数据查询 , 现在将其与MC-Holegres组件结合 , 我们还能做到实时数仓的应用场景 。
MaxCompute是阿里云的一个托管服务 , 它依托于阿里云强大的基础设施 , 为用户提供优质、便捷的服务 , 其架构如下图所示 。
|持续定义Saas模式云数据仓库+实时搜索
本文插图

MaxCompute有着广泛的应用场景 , 传统数仓所能做的 , MaxCompute都能做 , 主要包括:
1.广告场景:用户标签计算、分析等;2.业务运营场景:交互式业务指标计算、查询等;3.各行业搭建数据仓库 , 比如流批一体、湖仓一体等;4.云上弹性扩展大数据计算和存储 。
得益于可靠的架构和强大的技术实力 , MaxCompute有着非常优秀的产品技术特性 , 主要包括:
(1)全托管的Serverless的在线服务
1.对外以API方式访问的在线服务 , 开箱即用;2.预铺设的大规模集群资源 , 近乎无限资源 , 按需使用和付费;3.无需平台运维 , 最小化运维投入 。
(2)弹性能力与扩展性
1.存储和计算独立扩展 , 支持TB到EB级别数据规模的扩展能力 , 可以让企业将全部数据资产保存在一个平台上进行联动分析 , 消除数据孤岛;2.Serverless资源按需分配 , 实时根据业务峰谷变化带来的需求变化分配资源 , 自动扩展;3.单作业可根据需要秒级获得成千上万Core 。
(3)数据湖探索分析
1.默认集成对数据湖(如OSS服务)的访问分析 , 处理非结构化或开放格式数据;2.支持外表映射、Spark直接访问方式开展数据湖分析;3.对用户友好:在同一套数据仓库服务和用户接口下 , 实现数据湖分析和数据仓库的关联分析 。
(4)集成AI能力
1.与阿里云机器学习平台PAI无缝集成 , 提供强大的机器学习处理能力;2.可使用用户熟悉的Spark-ML开展智能分析;3.提供SQLML可以直接使用标准SQL训练机器学习模型 , 并对数据进行预测分析;4.Mars:使用Python机器学习第三方库 。
(5)支持流式采集和近实时分析
1.支持流式数据的实时写入(Tunnel) , 并在数据仓库中开展分析;2.与云上主要流式服务深度集成 , 轻松接入各种来源流式3.高性能秒级弹性并发查询 , 满足近实时分析场景 。
(6)深度集成Spark引擎
1.内建Apache Spark引擎 , 提供完整的Spark功能;2.与MaxCompute计算资源、数据和权限体系深度集成 。
(7)统一而丰富的运算能力
1.离线计算(MR , DAG , SQL , ML , Graph);2.实时计算(流式 , 内存计算 , 选代计算);3.涵盖通用关系型大数据 , 机器学习 , 非结构化数据处理 , 图计算 。
(8)提供统一的企业数据视图
1.提供租户级别的统一元数据,让企业能够轻松获得完整的企业数据目录;2.对于更广泛的数据源 , 通过外表建立数据仓库与外部数据源的连接 , Connect not Collect 。
(9)企业级服务
1.SLA保证:99.9%服务可用性保障;2.自助运维与自动化运维;3.完善的故障容错(软件 , 硬件 , 网络 , 人为)机制 。
一般来讲我们的大数据项目是需要很多个组件才能完成的 , 包括离线组件和实时组件 。 下图一个常用的场景 , 它是集实时、离线、分析、服务于一体的一套方案 , 适用于数据化运营 , 如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景 。 这套方案是阿里巴巴最佳实践的大数据平台 , 具有技术领先性 , 降本提效 , 高附加值业务收益等优势 。 当然 , 整个方案涉及到的产品也非常多 , 包括日志服务SLS、数据传输DTS、DataHub、实时计算Flink等等 , 具体如下图所示 。


推荐阅读