云体验师:AWS的云上数据湖方案怎么样?( 二 )
本文插图
我一直觉得DataLake的中文翻译非常传神 , 在汉语文化中 , “江河湖海”哥儿四个 , 个顶个儿的非常大 , 数据湖也如上图所示 , 功能很强大 , 能做的事情非常多 , 而且 , 还有很强的包容性 。
包容性体现在三个方面:
首先 , 容量特别大 , 互联网时代数据洪流经常有突发性和不可预测性 , 比如新浪微博上的明星恋爱、结婚、分手、离婚新闻就有突然性 。 从数据的角度看 , 好比夏天突如其来的暴雨 , 它可能会带来洪涝灾害 , 而有个湖就能将降水蓄积起来 , 数据湖能做到这点 , 来多少数据都不怕 。
其次 , 能容纳的数据类型非常多 , 无论是原始的未经处理的数据 , 还是结构化的数据 , 还是非结构化的数据 , 只要是能以0101的方式存在硬盘里的数据 , 数据湖都能存进来 。
第三点 , 能干的事儿多 , 数据湖不仅能做以前数据仓库(DataWareHouse)做的工作 , 包括数据分类提炼还有数据分析之类的 , 而且还有各种方法对这些数据可以进行查询 , 所以能对接机器学习 , 人工智能这类新型应用 。
数据湖这么强大 , 强大意味着复杂 , 如何以最简单的方式构建数据湖呢?答案是基于云的数据湖方案 。
AWS的云上数据湖方案
本文插图
作为公有云领头羊的AWS在许多技术方案方面都非常有代表性 , 是许多云厂商争相研究和对比的标杆 , AWS的数据湖是怎样的存在呢?
AWS的数据湖平台有多种多样的服务 , 能以多种多样的方式获取多种多样来源的数据 , 然后存起来进行多种多样的分析利用 。
首先 , 解决数据从哪儿来的问题 。
AWS有一系列的数据迁移工具 , 比如做数据库迁移的AWS Database Migration Service数据库迁移服务 (DMS) , 还有数据快递箱AWS Snowball (雪球) , 还有混合云场景下的AWS Storage Gateway存储网关 , 还有AWS Backup数据备份方案 。
然后 , 解决数据存储的问题 。
AWS的数据湖方案的核心是Amazon S3存储 , 作为AWS第一个云服务 , AWS的S3树立了对象存储的标准 , 另外 , S3 Bucket(桶)的概念也是一个神命名 , 桶作为生活常用容器可以装各种东西 , 作为数据存储可以存各种二进制的数据 。
作为一个能存放大量数据的容器 , 价格自然得亲民 , 为了降低价格 , S3衍生出的Amazon Glacier让价格降了一大截儿 , 后来又推出了Amazon S3 Glacier Deep Archive归档方案 , 价格又降了一大截儿 。
数据湖方案里的数据库类型可以说是应有尽有 , 包括有键值数据库Amazon DynamoDB , 还有支持SQL Server、Oracle、MariaDB、PostgreSQL和MySQL托管的关系型数据库服Amazon 务RDS , 还有AWS专属的Amazon Aurora数据库 , AWS一再强调Amazon Aurora是增长最快的一个服务 , 但目前尚不清楚与别的数据库相比的概况 。
以上几个方面 , 包括S3存储和各种数据库解决了数据存的问题 。 第三点 , 数据要如何使用起来呢?
Amazon Redshift是AWS的数据仓库 , 据说成本是传统数据仓库的十分之一;Amazon EMR是AWS的MapReduce集群 , 可以运行包括Spark , Hadoop , Hive , Hbase等大数据分析工具 。 Amazon Elasticsearch是做一些运维分析;Amazon Kinesis可以做实时的数据分析 。
AWS的数据分析方案并不是简单把别人做过的开源的方案放到云上 , 同时 , AWS也按照自己的理解提供自己独有的分析方案 , 这是AWS在很多方案上都惯用的策略 。
比如 , AWS Glue(胶水)是一个专业的ETL工具 , 能做数据分析的准备工作 。 AWS Glue首先是一个Servless服务 , 成本比较低 , 它能为数据生成数据目录(DataCatalog) , 能自动完成ETL操作将数据传递给数据仓库 , 它支持对AWS上的各种关系型数据库 , S3对象存储的数据进行操作 , 作为一个ETL工具 , Glue非常简单易用 。
推荐阅读
- ZEALER■2 Pro蓝牙耳机,11mm同轴大圈铁,低音爆表体验:安克创新Liberty
- 飘客爱科技@南卡A1主动降噪耳机体验,低价位也能感受无线耳机ANC
- 升级游戏体验 北通宙斯精英手柄多维场景让生化危机3更惊险
- 「电商科技馆」3能带来超越游戏手机的体验?这些细节就是关键,为什么iQOO
- 游戏使者■称搜寻物资的体验尚需改善,COD16:斗鱼画饼李解析VG247文章
- 以数字化迭代服务形态,齐家网能否攻克用户体验行业难题?
- 我的第一部5G手机■用户体验全面进化 这四款双模5G旗舰口碑炸裂
- #cnBeta#重大失误?NASA全面向AWS云端迁移数据 却忽略了访问成本
- 『家有汽车』平时居然没注意到!,新车上路体验差?这3个位置还需改善
- 「什么值得买」Bose C50 体验,开启在家听歌的正确方式
