InfoQSpark 3.0开发近两年终于发布,流、Python、SQL重大更新详解( 三 )
Hydrogen、流和可扩展性 Spark 3.0 完成了 Hydrogen 项目的关键组件 , 并引入了新功能来改善流和可扩展性 。
- 加速器感知调度:Hydrogen 项目是 Spark 的一项主要计划 , 旨在更好地统一基于 Spark 的深度学习和数据处理 。 GPU 和其他加速器已经被广泛用于加速深度学习工作负载 。 为了使 Spark 能够利用目标平台上的硬件加速器 , 新版本增强了已有的调度程序 , 让集群管理器可以感知到加速器 。 用户可以通过 配置 来指定加速器 , 然后调用新的 RDD API 来利用这些加速器 。
- 结构化流的新 UI:结构化流最初是在 Spark 2.0 中引入的 。 在 Databricks , 使用量同比增长 4 倍之后 , 每天使用结构化流处理的记录超过了 5 万亿条 。 新版本添加了专用的新 Spark UI , 用于查看流作业 。 新 UI 提供了两组统计信息:已完成的流查询作业的聚合信息和流查询的详细统计信息 。
本文插图
- 可观察的指标:持续监控数据质量变化是管理数据管道的一种必备功能 。 新版本引入了监控批处理和流应用程序的功能 。 可观察的指标是一种可基于查询(DataFrame)定义的聚合函数 。 在 DataFrame 执行完成后会发出一个事件 , 事件包含了自上一个完成点以来处理的数据的度量信息 。
- 新的目录插件 API:现有的数据源 API 缺乏访问和操作外部数据源元数据的能力 。 新版本增强了数据源 V2 API , 并引入了新的目录插件 API 。 对于同时实现了目录插件 API 和数据源 V2 API 的外部数据源 , 用户可以通过标识符直接操作外部表的数据和元数据(在相应的外部目录注册了之后) 。
本文插图
InfoQ 读者交流群上线啦!各位小伙伴可以扫描下方二维码 , 添加 InfoQ 小助手 , 回复关键字“进群”申请入群 。 大家可以和 InfoQ 读者一起畅所欲言 , 和编辑们零距离接触 , 超值的技术礼包等你领取 , 还有超值活动等你参加 , 快来加入我们吧!
点个在看少个 bug ??
推荐阅读
- 中国网|中国发布丨国际海事组织向全球分享《船舶船员新冠肺炎疫情防控操作指南(V3.0)》
- 车无涯|标配四驱3.0T+AT爆350马力,玛莎拉蒂也扛不住了!一口气降20万
- 光学|奥普光电:Caf2光学晶体可根据实际需求进行二次开发用于光刻机的光学系统中
- 在攀枝花开发建设纪念馆忆往昔
- 车.说|V6+10AT中大型SUV,预售56.2万,林肯飞行家:国产的3.0T
- 大白话财财|涉案近8千万,CSO遭严打,上市药企虚开发票超900张
- 红色警戒|《红色警戒》尤里被玩坏的作战单位,开发者也没想到能这么玩吧
- 21世纪经济报道|北京健康宝“闪崩”新版3.0版不稳定?
- 原平之声|中国地质大学专家组赴原平市调研地热资源开发并召开座谈会
- 直观视界松下向华为抛橄榄枝,欲跟华为共同开发芯片
