老王技能厂再看数据湖,十年之后( 三 )


所以 , Hadoop只是实现数据湖解决方案的一种技术 , 企业部署数据湖不一定需要Hadoop , 如果有更好的技术出现 , Hadoop在数据湖的作用也将被取代 。
当然 , 还有一个数据中台 。 但数据中台 , 跟数据湖则差的更远了 。 可以先简单理解中台 , 数据中台是相对于数据前台和数据后台的概念 , 数据前台表现的是对数据的应用 , 通常与用户交互 , 如app、网站等 。 数据后台则负责数据开发、支持 。
所以 , 数据中台的出现是为了解决数据后台开发无法跟上前台业务需求变化、业务系统数据孤岛、数据繁杂、数据隔离等系列难题 , 在前台和后台之间搭建的桥梁 , 以实现前台效率的提升 , 后台灵活性的增加 。
在本质上 , 数据中台并不像数据仓库、数据湖一样是一个具体的软件产品或者解决方案 , 而是一个企业级的逻辑概念 , 是一系列数据组件的集合 。 其通过聚合和治理跨域数据 , 将数据抽象封装成服务 , 因此为业务提供服务的主要方式是数据API 。
云服务商主导的数据湖市场
也正是上述这些特性及优势 , 使得厂商们坚信数据湖将是企业数据存储、处理、分析的未来 。 同时也不难看出 , 数据湖的部署 , 对性能、扩展性、稳定性、经济性等方面要求较高 , 这几个特性又恰是云服务的优势 。
所以 , 当下数据湖的玩家 , 也主要集中在云服务商 。 包括AWS、Azure、阿里云、华为云均有提供这一服务 。 具体来看 , AWS , 服务全 , 宣传的也最多 。 早在2018年的re:Invent大会上 , AWS便宣布推出数据湖管理工具AWSLakeFormation , 并宣称通过这一自动化方案 , 仅需几天时间便能帮助企业构建安全的数据湖 。
如今的AWS数据湖服务 , 除AWSLakeFormation外 , 还有两大元素 , 一是AmazonS3/Glacier , 二是AWSGlue 。 AmazonS3是AWS最早推出的存储服务 , 主要用于整个数据湖服务中的数据存储;AWSGlacier主要用于数据湖中冷数据的存储 , 降低企业存储成本 。
AWSGlue则是全托管的数据提取、转换和加载(ETL)服务及元数据目录 。 借助AWSGlue , 企业可以轻松准备数据 , 加载数据到数据库、数据仓库和数据湖 。 同时AWSGlue消除了ETL作业基础设施方面的重复劳动 , 使得数据湖中的数据集可以被发现、用于查询和分析 , 最终缩短分析项目中ETL和数据编目阶段时间 。
老王技能厂再看数据湖,十年之后
文章图片
再看Azure , 布局早 , 但在国内声量较小 。 Azure在2015年便推出了数据湖服务AzureDataLakeService , 如今最新的数据湖服务为AzureDataLakeStorageGen2 , 发布于2019年初 。
Azure称 , DataLakeStorageGen2主要适用于大型数据分析 , 其结合了Azure非结构化存储服务BlobStorage的可扩展性、安全模型和丰富的功能 , 以及为分析所设计的高效能文件系统 , 能与Hadoop分布式文件系统兼容 , 这使得用户选择Azure云端数据湖服务时 , 无需在成本和效能中取舍 。
阿里云的数据湖服务为数据分析引擎DataLakeAnalytics , 于2018年中推出 , 2019年初正式商用化 。 在本质上 , DataLakeAnalytics是基于无服务器(Serverless)化的云上交互式查询分析服务 。
这意味着 , 企业无需ETL , 便可通过DataLakeAnalytics在云上借助标准JDBC直接对阿里云OSS、TableStore、RDS、MongoDB等不同数据源中存储的数据进行查询和分析 。 阿里称DataLakeAnalytics可无缝集成各类商业分析工具 , 提供便捷的数据可视化 。 DataLakeAnalytics主要具备三个亮点:
一是轻松分析多源数据:OSS , TableStore , RDS等 , 让不同存储源中的数据 , 具备分析能力;二是能够对异构数据源做关联分析;三是全Serverless结构 , 无需长期持有成本 , 可按需使用 , 更灵活 , 资源伸缩方便 , 升级无感知 。


推荐阅读