InfoQ|Spark 3.0开发近两年终于发布，流、Python、SQL重大更新详解( 三 )

Hydrogen、流和可扩展性 Spark 3.0 完成了 Hydrogen 项目的关键组件，并引入了新功能来改善流和可扩展性。

加速器感知调度：Hydrogen 项目是 Spark 的一项主要计划，旨在更好地统一基于 Spark 的深度学习和数据处理。 GPU 和其他加速器已经被广泛用于加速深度学习工作负载。为了使 Spark 能够利用目标平台上的硬件加速器，新版本增强了已有的调度程序，让集群管理器可以感知到加速器。用户可以通过配置来指定加速器，然后调用新的 RDD API 来利用这些加速器。
结构化流的新 UI：结构化流最初是在 Spark 2.0 中引入的。在 Databricks ，使用量同比增长 4 倍之后，每天使用结构化流处理的记录超过了 5 万亿条。新版本添加了专用的新 Spark UI ，用于查看流作业。新 UI 提供了两组统计信息：已完成的流查询作业的聚合信息和流查询的详细统计信息。

InfoQ|Spark 3.0开发近两年终于发布，流、Python、SQL重大更新详解

本文插图

可观察的指标：持续监控数据质量变化是管理数据管道的一种必备功能。新版本引入了监控批处理和流应用程序的功能。可观察的指标是一种可基于查询（DataFrame）定义的聚合函数。在 DataFrame 执行完成后会发出一个事件，事件包含了自上一个完成点以来处理的数据的度量信息。
新的目录插件 API：现有的数据源 API 缺乏访问和操作外部数据源元数据的能力。新版本增强了数据源 V2 API ，并引入了新的目录插件 API 。对于同时实现了目录插件 API 和数据源 V2 API 的外部数据源，用户可以通过标识符直接操作外部表的数据和元数据（在相应的外部目录注册了之后）。

Spark 3.0 的其他更新 Spark 3.0 解决了 3400 多个 Jira 问题，这是 440 多个贡献者共同努力的结果。这些贡献者包括个人贡献者和来自 Databricks、谷歌、微软、英特尔、IBM、阿里巴巴、Facebook、英伟达、Netflix、Adobe 等公司的员工。除了本文介绍的在 SQL、Python 和流技术方面的关键改进， Spark 3.0 还有很多其他改进功能，详情可以查阅版本发行说明。发行文档中提供了更多信息，包括数据源、生态系统、监控等。

本文插图
【InfoQ|Spark 3.0开发近两年终于发布，流、Python、SQL重大更新详解】InfoQ 读者交流群上线啦！各位小伙伴可以扫描下方二维码，添加 InfoQ 小助手，回复关键字“进群”申请入群。大家可以和 InfoQ 读者一起畅所欲言，和编辑们零距离接触，超值的技术礼包等你领取，还有超值活动等你参加，快来加入我们吧！

点个在看少个 bug ??