十年之后,再看数据湖
假如有这样一种解决方案 , 能帮助企业实现不同数据从获取、存储 , 到处理再到分析这样全生命周期的管理 , 同时支持批量历史数据和实时流数据的处理 。
想必 , 这对于急于向数字化 , 甚至是智能化转型 , 并渴望从数据中挖掘价值的企业而言 , 无疑是一项最具吸引力的“魔法” 。
今天 , 因为数据湖的出现 , 这一解决方案再也不是假如 , 这一“魔法”也真正可以被企业使用 。
本文插图
新鲜又不新鲜的数据湖
从1956年夏季 , 以麦卡赛、明斯基、罗切斯特和申农等为首的一批年轻科学家首次提出“人工智能”这一术语 , 到近两年以人工智能为主导的第四次工业革命的到来 , 五十多年的时间里 , 人工智能经历了几番起起落落又再起 。
无独有偶 , 数据湖也如此 。 尽管数据湖这一解决方案近两年火热异常 , 但这一说法并非最近才提出 。
早在十年前的2010年 , Pentaho的创始人兼CTO詹姆斯·狄克逊(James Dixon)便在纽约Hadoop World大会上提出了这一概念 。 不过当时 , Pentaho刚刚发布了如今被大数据界广泛使用的开源框架Hadoop的第一个版本 。
随后几年 , 数据湖一直处于不温不火状态 , 更多的是在一些开源项目上得以应用 。 直到2016年前后 , 数据湖才从一个初级概念 , 发展到第二阶段 。 近两年随着大数据、云计算的愈发成熟 , 以及物联网、异构计算等技术的兴起 , 数据湖才真正从技术逐步走向企业实际应用 。
那么 , 究竟数据湖是什么呢?最早 , James Dixon对数据湖的解释是:把以前在磁带上存储的东西倒入到数据湖 , 便可以开始探索该数据 , 重要的是能只把需要的数据“倒”入到Hadoop 。 如果想结合来自数据湖的信息和客户关系管理系统(CRM)里面的信息 , 便可以在需要时将二者数据结合 。
维基百科对数据湖的解释是:数据湖是一种在系统或存储库中以自然格式存储数据的方法 , 其可对企业中的所有数据进行统一存储 , 从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的转换数据 。
其中 , 从关系数据库的结构化数据、到CSV、XML、JSON日志为代表的半结构化数据 , 再到电子邮件 , 文档 , PDF等非结构化数据和以图像、音频、视频为代表的二进制数据 , 数据湖均可支持 。
到今天 , 被普遍认可的数据湖的概念是:数据湖是一个可集中存储、处理、分析多个来源、多种类型数据的平台 , 其本质上是一套先进的企业数据架构 。
在架构组成上 , 数据湖主要可分为数据接入层、数据存储层、数据处理计算层及数据应用层四个层面 。
本文插图
其中 , 数据接入层提供各种类型元数据的接入;数据存储层提供多种接口 , 支持多种类型数据异构存储;数据处理计算层提供数据的清洗、治理、权限管理以及安全等;数据应用层则可用于BI报表、机器学习、交互式大数据SQL分析等 。
数据湖的引力何在
其实不难看出 , 数据湖“天生”带着吸引力 。 因为数据湖具备的这些特性 , 恰恰是当下企业所需要的 , 具体来看:
便于收集数据 。 由于数据湖支持结构化、半结构化、非结构化等各种类型数据 , 这使得企业借助数据湖收集数据时不用担心数据的写入限制 。 尤其是未来几年 , 5G、IoT的发展将产生更多的流数据需要实时处理 。
打破数据孤岛 。 早期 , 企业内部IT系统逐步完善 , 这使得每个应用都产生并存储着大量数据 , 且各个应用间数据互不相通 , 这便是企业常说的烟囱式IT架构 , 这样的建设模式也使得企业产生数据孤岛问题 。 而数据湖由于可以汇集不同应用间的数据 , 自然不用担心数据孤岛问题 。
推荐阅读
- 最极客网|原创 中兴推5G视频手机,衰颓之后还能凭技术回归主流吗?
- 互联网乱侃先生|国产机们不用再看高通脸色?超级芯片巨头入场,GPU比高通强很多
- Epic极客速递|继华为研发麒麟之后,OPPO的马里亚纳计划也在稳步推进
- 国美国美方巍:与京东谈判是与拼多多合作之后,双方交流一周
- SpaceX马斯克SpaceX是怎么战胜巨头波音的?也结束美国对俄罗斯十年依赖
- |继官方官宣小米手环5之后,小米手环5代码再爆料
- 服务京东618还只会剁手囤货?疫情之后,这个东西非买不可!
- 苹果|继Home键、耳机孔之后,苹果将取消iPhone充电接口
- 子阳数码|6月1日之后,手机稳定器面临“失业”,一款微云台手机即将亮相
- 电动星球News|失去华为,失去中国智能汽车三十年? | 硬核时间
