InfoQ|Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解( 三 )
Hydrogen、流和可扩展性 Spark 3.0 完成了 Hydrogen 项目的关键组件 , 并引入了新功能来改善流和可扩展性 。
- 加速器感知调度:Hydrogen 项目是 Spark 的一项主要计划 , 旨在更好地统一基于 Spark 的深度学习和数据处理 。 GPU 和其他加速器已经被广泛用于加速深度学习工作负载 。 为了使 Spark 能够利用目标平台上的硬件加速器 , 新版本增强了已有的调度程序 , 让集群管理器可以感知到加速器 。 用户可以通过 配置 来指定加速器 , 然后调用新的 RDD API 来利用这些加速器 。
- 结构化流的新 UI:结构化流最初是在 Spark 2.0 中引入的 。 在 Databricks , 使用量同比增长 4 倍之后 , 每天使用结构化流处理的记录超过了 5 万亿条 。 新版本添加了专用的新 Spark UI , 用于查看流作业 。 新 UI 提供了两组统计信息:已完成的流查询作业的聚合信息和流查询的详细统计信息 。
本文插图
- 可观察的指标:持续监控数据质量变化是管理数据管道的一种必备功能 。 新版本引入了监控批处理和流应用程序的功能 。 可观察的指标是一种可基于查询(DataFrame)定义的聚合函数 。 在 DataFrame 执行完成后会发出一个事件 , 事件包含了自上一个完成点以来处理的数据的度量信息 。
- 新的目录插件 API:现有的数据源 API 缺乏访问和操作外部数据源元数据的能力 。 新版本增强了数据源 V2 API , 并引入了新的目录插件 API 。 对于同时实现了目录插件 API 和数据源 V2 API 的外部数据源 , 用户可以通过标识符直接操作外部表的数据和元数据(在相应的外部目录注册了之后) 。
本文插图
【InfoQ|Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解】InfoQ 读者交流群上线啦!各位小伙伴可以扫描下方二维码 , 添加 InfoQ 小助手 , 回复关键字“进群”申请入群 。 大家可以和 InfoQ 读者一起畅所欲言 , 和编辑们零距离接触 , 超值的技术礼包等你领取 , 还有超值活动等你参加 , 快来加入我们吧!
点个在看少个 bug ??
推荐阅读
- InfoQ|Google早已看到未来多容器的挑战,利用Anthos能否实现多集群统一管理?
- 驱动中国|APUS亮相华为首届HMS Core. Sparkle创新沙龙,助力构建手游次世代
- 鸿蒙系统|鸿蒙OS3.0系统+麒麟1020华为P50,华为P40沦为弃机网友欢呼
- InfoQ|25岁网安CEO被判刑12年,技术隔离后,顶尖黑客被out了?
- 一只猫看科技|我的硬盘我做主 - ORICO/奥睿科USB3.0移动固态硬盘盒
- |我的硬盘我做主 - ORICO/奥睿科USB3.0移动固态硬盘盒
- 趣头条|斑马网络将携 AR-Driving 3.0 参加世界人工智能大会
- |“赣服通”3.0版暨APP正式上线运行
- 联盟网易邮箱诚信联盟3.0上线,产品经理手把手教学指南来了!
- InfoQ|细节中有上帝,论精简代码
