InfoQ|Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解( 三 )


Hydrogen、流和可扩展性 Spark 3.0 完成了 Hydrogen 项目的关键组件 , 并引入了新功能来改善流和可扩展性 。

  • 加速器感知调度:Hydrogen 项目是 Spark 的一项主要计划 , 旨在更好地统一基于 Spark 的深度学习和数据处理 。 GPU 和其他加速器已经被广泛用于加速深度学习工作负载 。 为了使 Spark 能够利用目标平台上的硬件加速器 , 新版本增强了已有的调度程序 , 让集群管理器可以感知到加速器 。 用户可以通过 配置 来指定加速器 , 然后调用新的 RDD API 来利用这些加速器 。
  • 结构化流的新 UI:结构化流最初是在 Spark 2.0 中引入的 。 在 Databricks , 使用量同比增长 4 倍之后 , 每天使用结构化流处理的记录超过了 5 万亿条 。 新版本添加了专用的新 Spark UI , 用于查看流作业 。 新 UI 提供了两组统计信息:已完成的流查询作业的聚合信息和流查询的详细统计信息 。

InfoQ|Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解
本文插图
  • 可观察的指标:持续监控数据质量变化是管理数据管道的一种必备功能 。 新版本引入了监控批处理和流应用程序的功能 。 可观察的指标是一种可基于查询(DataFrame)定义的聚合函数 。 在 DataFrame 执行完成后会发出一个事件 , 事件包含了自上一个完成点以来处理的数据的度量信息 。
  • 新的目录插件 API:现有的数据源 API 缺乏访问和操作外部数据源元数据的能力 。 新版本增强了数据源 V2 API , 并引入了新的目录插件 API 。 对于同时实现了目录插件 API 和数据源 V2 API 的外部数据源 , 用户可以通过标识符直接操作外部表的数据和元数据(在相应的外部目录注册了之后) 。
Spark 3.0 的其他更新 Spark 3.0 解决了 3400 多个 Jira 问题 , 这是 440 多个贡献者共同努力的结果 。 这些贡献者包括个人贡献者和来自 Databricks、谷歌、微软、英特尔、IBM、阿里巴巴、Facebook、英伟达、Netflix、Adobe 等公司的员工 。 除了本文介绍的在 SQL、Python 和流技术方面的关键改进 , Spark 3.0 还有很多其他改进功能 , 详情可以查阅版本 发行说明 。 发行文档中提供了更多信息 , 包括数据源、生态系统、监控等 。
InfoQ|Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解
本文插图
【InfoQ|Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解】InfoQ 读者交流群上线啦!各位小伙伴可以扫描下方二维码 , 添加 InfoQ 小助手 , 回复关键字“进群”申请入群 。 大家可以和 InfoQ 读者一起畅所欲言 , 和编辑们零距离接触 , 超值的技术礼包等你领取 , 还有超值活动等你参加 , 快来加入我们吧!

点个在看少个 bug ??


推荐阅读