大数据时代 金山云容器引擎实践为用户创造更多价值

  随着云原生技术的加速普及 , Kubernetes逐渐成为IT技术架构的基石 , 并推动着各行业技术架构的转型升级 。 在《InfoQ 编辑部开年聊聊2020 年值得关注的十大技术趋势》报道中 , 写到其中一个趋势是容器化加速席卷大数据基础架构 。

  今天 , 我们就分享下金山云容器引擎在大数据平台的应用实践 。

  大数据平台拥抱Kubernetes 金山云容器引擎应需而生

  众所周知 , Hadoop的出现加速大数据技术的应用推广 , 随着应用场景的不断丰富 , 近几年也涌现出多款优秀的计算框架 , 如Spark、Flink等 。 此前在大数据分布式调度平台中 , 大家普遍采用是Yarn , 但是随着应用场景丰富和规模扩大 , 平台逐渐暴露出一些问题 , 如资源隔离限制较弱、监控信息不完善、弹性扩展能力弱、GPU支持不足等 。

  随着容器化的快速发展 , 大数据原有的Hadoop Yarn分布式任务调度模式 , 正在被基于Kubernetes的技术架构所取代 。 容器凭借轻量秒级部署、一次构建、处处运行的巨大优势 , 推动了快捷、自动化的工作流程 , 同时Kubernetes提供的强大编排能力以及蓬勃发展的社区生态 , 为大数据容器化提供了便捷的平台 。

  大数据系统原生支持on Kubernetes , 例如Spark 从官方2.3版本开始就可以无需任何修改直接运行在 Kubernetes 上 , 这是一个里程碑式的事件 , 表明了未来技术架构的发展方向 。


大数据时代 金山云容器引擎实践为用户创造更多价值

----大数据时代 金山云容器引擎实践为用户创造更多价值//----

  容器引擎是金山云推出的Kubernetes服务产品 , 基于原生的Kubernetes进行开发和适配 , 无缝融合了金山云生态的其他基础资源和产品服务 。

  目前 , 金山云容器引擎覆盖主流应用的多版本Kubernetes , 支持一键式创建 , 多可用区高可用部署 , 同时提供旧版本的一键升级功能 , 持续保护用户资产;集成云平台能力 , 如网络方案(Flannel和Canal)、持久化存储(块存储和文件存储)、安全(多租户隔离和主机加固)等;镜像仓库支持对Docker hub、gcr.io镜像加速 , 高速内网下载镜像 , 11个9的可靠性保证;在控制台支持Kubernetes 的软件包管理工具Helm , 提供金山云官方Helm Chart , 支持在线可视化部署Helm应用 。

  此外 , 金山云容器引擎大幅降低了Kubernetes的使用门槛和综合成本 , 让用户开发团队更专注自身业务 。

  统一管理、弹性伸缩 为用户创造更多价值

  由于大数据应用的复杂性 , 会使用多种类型的机型作为Work节点 , 如利用云主机应对快速的流量扩容、利用云物理服务器提供无性能损耗能力、利用云GPU服务器的大规模线程和高速计算力优势等等 , 来满足计算的需求 。

  金山云容器引擎提供混合集群的统一管理服务 , 在一个集群可以实现多种类型节点的统一管理 , 通过Label的设置可以实现对整体资源的统一调度部署 , 避免了多个集群的使用 , 一方面大幅降低了使用成本 , 另一方面有效提升管理效率 。


推荐阅读