云体验师:AWS的云上数据湖方案怎么样?( 三 )
ETL是一个非常复杂 , 非常难的操作 , 基于数据仓库的工作中 , 大部分时间可能都在做ETL , ETL的工具非常多 , 好用的特别贵 , 便宜的非常不好用 , AWS的AWS Glue把一些共性的东西做出来 , 以Serveless的方式提供 , 可以说是AWS数据湖方案里的一大亮点了 。 也可以说是很多人想用AWS数据湖方案的一个原因 。
又比如 , Amazon Athena是一个Servless服务 , 它提供的是一个交互式的数据查询服务 , 可以用它对S3里的数据进行查询 , 支持用标准的SQL语句进行查询 , 做数据分析用 , 使用起来非常简单 。 3月24日 , AWS宣布AWS Glue和Amazon Athena在中国(宁夏)区域上线 , 已经可以上手使用了 。
数据湖是处理数据的技术 , 而人工智能是非常依赖数据的 , 如果想用数据湖的数据做一些人工智能的项目 , Amazon SageMaker等AI服务也支持从数据库拿数据进行训练 。 这点在AWS上也是水到渠成的 。
本文插图
以上 , 就是AWS数据分析组件的大部分内容 , 大致的逻辑关系可以参照上图 。
AWS提供的各种服务之间可以在云上相互协作 , 从而组合而成数据湖方案 , 不过 , 光是看到有这么多服务就知道这事儿其实还是有点费劲 。
为了简化数据湖的构建过程 , AWS还推出了一个叫AWS Lake Formation的服务 , 可以自动构建一个数据湖 。 目前中国区暂时还不提供Lake Formation , AWS首席云计算企业战略顾问张侠博士表示中国区很快就会有 。
他们怎么用AWS数据湖方案
迁移上公有云的用户越来越多了 , 云计算也越来越成熟了 , 包括Amazon EC2 , Amazon S3等基础性服务用户已经非常熟悉了 , 在AWS上 , 像数据库已经能对Oracle进行替代了 。 这些都已经经过亚马逊电商平台的实战验证了 , AWS推出的方案成熟度非常高 。
本文插图
张侠博士介绍说 , 亚马逊曾经是Oracle全球数据库最大的用户 , 它用了75PB的数据库容量 , 7500多个数据库 , 整个亚马逊里1000多个不同的团队原本都是用Oracle的数据库 。
过去一年半到两年时间 , 亚马逊全方位将Oracle数据库迁移到了自己对应的产品 , 不仅如此 , 迁移过程并不困难 , 费用方面 , 数据库成本减少60% , 管理费用减少70% , 性能提升高达40% 。
本文插图
亚马逊电商的核心竞争之一就是在内部使用的一个叫Galaxy(银河)的数据湖 , 这就是亚马逊有时候比你自己还了解你自己的秘密武器 。
这个数据湖里有50PB到100PB数据 , 可以把亚马逊的数据进行整合后做大数据分析 , 亚马逊每天有60多万的分析任务 , 从用户推荐、运营信息、库存信息、购买信息、物价信息等等 , 都依赖于数据湖 。 这个数据湖就是AWS数据湖方案构成的 。
本文插图
FINRA是一家美国的金融监管机构 , 每天有超过1500亿的事件 , 每天要监测20PB的市场活动数据 , FINRA使用AWS的数据湖方案 , 把所有金融交易的信息都整合在一起进行分析 , 与原来相比 , 每年节省1000万美元到2000万美元的费用 。
本文插图
纳斯达克每天要处理300-500亿次付款、交易、询价操作 , 而且要能查询这些记录 , 此前 , 多种数据散落在不同的系统中 , 在采用AWS的数据湖方案之后 , 能处理历史数据并进行交互式查询 , 对纳斯达克来说 , 不仅降低了成本 , 而且把上市时间缩短为原来的三分之一 。
推荐阅读
- ZEALER■2 Pro蓝牙耳机,11mm同轴大圈铁,低音爆表体验:安克创新Liberty
- 飘客爱科技@南卡A1主动降噪耳机体验,低价位也能感受无线耳机ANC
- 升级游戏体验 北通宙斯精英手柄多维场景让生化危机3更惊险
- 「电商科技馆」3能带来超越游戏手机的体验?这些细节就是关键,为什么iQOO
- 游戏使者■称搜寻物资的体验尚需改善,COD16:斗鱼画饼李解析VG247文章
- 以数字化迭代服务形态,齐家网能否攻克用户体验行业难题?
- 我的第一部5G手机■用户体验全面进化 这四款双模5G旗舰口碑炸裂
- #cnBeta#重大失误?NASA全面向AWS云端迁移数据 却忽略了访问成本
- 『家有汽车』平时居然没注意到!,新车上路体验差?这3个位置还需改善
- 「什么值得买」Bose C50 体验,开启在家听歌的正确方式
