十年之后,再看数据湖( 二 )
实现数据的挖掘与分析 。 如今人工智能盛行 , 但阻碍人工智能落地的一点便是数据的数量与质量 , 如果企业内部各系统间的数据不能复用的话 , 训练难度自然增大 。
数据湖由于存储了各类型最原始的数据 , 且可共享不同部门、不同应用间的数据 , 这使得企业无需增加太多难度便可对这些数据进行训练 , 或者借助BI工具进行数据分析 , 挖掘数据价值 。
灵活性和敏捷性 。 由于采用分布式架构部署 , 这使得数据湖具有很方便的扩展能力 , 而不像传统集中存储式那样 , 在对系统进行扩展时“牵一发而动全身” 。 同时在添加新单元或者单项目时 , 无需对整个数据湖进行大规模改变 , 仅需几天或几周时间便可实现 , 这也正契合当下提倡的敏捷开发理念 。
一直以来 , 企业在数据的管理、应用上存在着诸多难题 。 汤姆斯·约翰、潘卡·米斯拉在《企业数据湖》一书中这样描述到:长期以来 , 企业一直试图找到一个统一的模型来表示企业中的所有实体 , 但这个任务具有极大的挑战性 。
例如:一个实体在企业中可能有多种表示形式 , 因此可能不存在某个完备的模型来统一表示实体;不同的企业应用程序可能会基于特定的商业目标来处理实体 , 这使得处理实体时企业某些流程会被使用或受影响;不同应用程序可能对每个实体的访问模式、存储结构不同 。 这些问题的困扰 , 也阻碍了企业业务处理、服务定义及术语命名等事务的标准化 。
而数据湖 , 由于尽可能从实体所有者相关的系统中捕获全量数据来表示实体 。 这使得企业隐式实现了一个较好的统一数据模型 , 同时这一模型也不会对业务、程序产生实质性影响 。 这使得企业在数据处理、管理以及洞察上获得极大帮助 。
数据湖、数据仓库、Hadoop与数据中台
如同为了方便数据的读取而发明了数据库一样 , 企业为了更进一步借助数据进行分析报告和商业决策 , 于是在数据库基础上提出了数据仓库这一解决方案 。 数据仓库这一解决方案也的确在某种程度上帮助企业解决了不少困难 。
也因此 , 在数据湖这一概念提出之初 , 甚至在当下也有人认为数据湖就是数据仓库 , 不过是“新瓶装旧酒”罢了 。
本文插图
事实上 , 真正了解数据湖和数据仓库后会发现 , 二者是截然不同的东西 。 从数据接入上看 。 不同于数据湖的支持各种类型数据接入 , 数据仓库中的数据多来自事务系统、运营数据库等关系型数据 , 其支持的数据仅为结构化的关系数据 。
从数据存储上看 。 数据湖尽可能保存了数据原始状态 , 而数据仓库中的数据进行了清洗加工 , 是可信任、结构良好的数据 。
从数据处理上看 。 数据仓库中的数据经过了事先定义 , 即所谓的Schema-On-Write , 写时模式 。 而数据湖中的数据均为原始数据 , 是在使用时定义 , 即Schema-On-Read , 读时模式 。 数据湖这样在使用时才做模型定义的灵活性 , 也使得企业可用其进行多种的应用分析 。
从使用对象上看 。 数据仓库的使用对象面向业务分析师、企业决策者 , 主要用于报告批处理、BI等 。 而数据湖的使用对象在数据仓库的基础上 , 还可面向开发者和科学家 , 使用场景也从批处理、BI扩展到机器学习、数据分析 。
从架构本身来看 。 从1990年首次提出 , 数据仓库的技术已经使用了30年 , 尽管其已相当成熟 , 但在架构的扩展以及安全性上 , 数据仓库并不具备优势 。 而晚“出生”的数据湖 , 其分布式架构天生便于扩展 , 且更加安全 , 再加上目前常用的大数据框架多开源 , 这使得数据湖在构建成本上也占得优势 。
【十年之后,再看数据湖】除了与数据仓库进行对比外 , 数据湖也经常与Hadoop一块出现 , 并被认为数据湖就是Hadoop集群 。
推荐阅读
- 最极客网|原创 中兴推5G视频手机,衰颓之后还能凭技术回归主流吗?
- 互联网乱侃先生|国产机们不用再看高通脸色?超级芯片巨头入场,GPU比高通强很多
- Epic极客速递|继华为研发麒麟之后,OPPO的马里亚纳计划也在稳步推进
- 国美国美方巍:与京东谈判是与拼多多合作之后,双方交流一周
- SpaceX马斯克SpaceX是怎么战胜巨头波音的?也结束美国对俄罗斯十年依赖
- |继官方官宣小米手环5之后,小米手环5代码再爆料
- 服务京东618还只会剁手囤货?疫情之后,这个东西非买不可!
- 苹果|继Home键、耳机孔之后,苹果将取消iPhone充电接口
- 子阳数码|6月1日之后,手机稳定器面临“失业”,一款微云台手机即将亮相
- 电动星球News|失去华为,失去中国智能汽车三十年? | 硬核时间
