十年之后,再看数据湖( 三 )
的确 , 凭借着开源、低价、支持各种类型海量数据以及快速传输等优势 , Hadoop早已成为企业部署数据湖理想的选择 。 但仅仅依靠Hadoop是构建不了数据湖的 。
其中最大的问题便是Hadoop虽然实现了数据存储以及分布式计算 , 但并未实现海量数据的管理、分配 , 而数据的管理在数据湖中的作用又极为重要 。
所以 , Hadoop只是实现数据湖解决方案的一种技术 , 企业部署数据湖不一定需要Hadoop , 如果有更好的技术出现 , Hadoop在数据湖的作用也将被取代 。
当然 , 还有一个数据中台 。 但数据中台 , 跟数据湖则差的更远了 。 可以先简单理解中台 , 数据中台是相对于数据前台和数据后台的概念 , 数据前台表现的是对数据的应用 , 通常与用户交互 , 如app、网站等 。 数据后台则负责数据开发、支持 。
所以 , 数据中台的出现是为了解决数据后台开发无法跟上前台业务需求变化、业务系统数据孤岛、数据繁杂、数据隔离等系列难题 , 在前台和后台之间搭建的桥梁 , 以实现前台效率的提升 , 后台灵活性的增加 。
在本质上 , 数据中台并不像数据仓库、数据湖一样是一个具体的软件产品或者解决方案 , 而是一个企业级的逻辑概念 , 是一系列数据组件的集合 。 其通过聚合和治理跨域数据 , 将数据抽象封装成服务 , 因此为业务提供服务的主要方式是数据API 。
云服务商主导的数据湖市场
也正是上述这些特性及优势 , 使得厂商们坚信数据湖将是企业数据存储、处理、分析的未来 。 同时也不难看出 , 数据湖的部署 , 对性能、扩展性、稳定性、经济性等方面要求较高 , 这几个特性又恰是云服务的优势 。
所以 , 当下数据湖的玩家 , 也主要集中在云服务商 。 包括AWS、Azure、阿里云、华为云均有提供这一服务 。 具体来看 , AWS , 服务全 , 宣传的也最多 。 早在2018年的re:Invent大会上 , AWS便宣布推出数据湖管理工具AWS Lake Formation , 并宣称通过这一自动化方案 , 仅需几天时间便能帮助企业构建安全的数据湖 。
如今的AWS数据湖服务 , 除AWS Lake Formation外 , 还有两大元素 , 一是Amazon S3/Glacier , 二是AWS Glue 。 Amazon S3是AWS最早推出的存储服务 , 主要用于整个数据湖服务中的数据存储;AWS Glacier主要用于数据湖中冷数据的存储 , 降低企业存储成本 。
AWS Glue则是全托管的数据提取、转换和加载 (ETL) 服务及元数据目录 。 借助AWS Glue , 企业可以轻松准备数据 , 加载数据到数据库、数据仓库和数据湖 。 同时AWS Glue消除了ETL作业基础设施方面的重复劳动 , 使得数据湖中的数据集可以被发现、用于查询和分析 , 最终缩短分析项目中ETL和数据编目阶段时间 。
本文插图
再看Azure , 布局早 , 但在国内声量较小 。 Azure在2015年便推出了数据湖服务Azure Data Lake Service , 如今最新的数据湖服务为Azure Data Lake Storage Gen2 , 发布于2019年初 。
Azure称 , Data Lake Storage Gen2主要适用于大型数据分析 , 其结合了Azure非结构化存储服务Blob Storage的可扩展性、安全模型和丰富的功能 , 以及为分析所设计的高效能文件系统 , 能与Hadoop分布式文件系统兼容 , 这使得用户选择Azure云端数据湖服务时 , 无需在成本和效能中取舍 。
阿里云的数据湖服务为数据分析引擎Data Lake Analytics , 于2018年中推出 , 2019年初正式商用化 。 在本质上 , Data Lake Analytics是基于无服务器(Serverless)化的云上交互式查询分析服务 。
这意味着 , 企业无需ETL , 便可通过Data Lake Analytics在云上借助标准JDBC直接对阿里云OSS、TableStore、RDS、MongoDB等不同数据源中存储的数据进行查询和分析 。 阿里称Data Lake Analytics可无缝集成各类商业分析工具 , 提供便捷的数据可视化 。 Data Lake Analytics主要具备三个亮点:
推荐阅读
- 最极客网|原创 中兴推5G视频手机,衰颓之后还能凭技术回归主流吗?
- 互联网乱侃先生|国产机们不用再看高通脸色?超级芯片巨头入场,GPU比高通强很多
- Epic极客速递|继华为研发麒麟之后,OPPO的马里亚纳计划也在稳步推进
- 国美国美方巍:与京东谈判是与拼多多合作之后,双方交流一周
- SpaceX马斯克SpaceX是怎么战胜巨头波音的?也结束美国对俄罗斯十年依赖
- |继官方官宣小米手环5之后,小米手环5代码再爆料
- 服务京东618还只会剁手囤货?疫情之后,这个东西非买不可!
- 苹果|继Home键、耳机孔之后,苹果将取消iPhone充电接口
- 子阳数码|6月1日之后,手机稳定器面临“失业”,一款微云台手机即将亮相
- 电动星球News|失去华为,失去中国智能汽车三十年? | 硬核时间
