技术债务的高息信用卡:深入了解那些知名的端到端机器学习平台
全文共6177字 , 预计学习时长16分钟
本文插图
图源:unsplash
机器学习(ML)被称为技术债务的高利率信用卡 。 对于特定的业务问题 , 使用适用的模型会相对容易一些 , 但是要使该模型在可伸缩的生产环境中运行 , 并能够处理不断变化的混乱数据语义和关系 , 以及以可靠的自动化方式演进模式 , 则完全是另一回事 。
对于机器学习生产系统而言 , 只有5%的实际代码是模型本身 。 将一组机器学习解决方案转变为端到端的机器学习平台的 , 是一种运用了加速建模、自动化部署和确保生产中的可伸缩性和可靠性的技术的架构 。
笔者此前讲过lean D/MLOps , 数据和机器学习操作 , 因为没有数据的机器学习操作是没有意义的 , 所以端到端机器学习平台需要进行整体构建 。 CI/CD基金会启动了一个MLOps特别兴趣小组(SIG) 。 其端到端机器学习平台确定的步骤如下图所示:
本文插图
不过 , 其中掩盖了一些不太重要的细节 。 例如 , 服务可能需要不同的技术取决于它是否是实时完成的 。 可伸缩的解决方案通常将模型放在一个负载均衡器后的服务集群的多个机器上的容器内运行 。 因此 , 上述图表中的单个框并不意味着实际平台的单个步骤、容器或组件 。
这并不是对图中步骤进行批评 , 而是一个警示:看似简单的事情在实践中可能并不那么容易 。
图表中没有模型(配置)管理 。 可以考虑诸如版本控制、实验管理、运行时统计、用于培训、测试和验证数据集的数据沿袭跟踪 , 从头开始或从模型快照、超参数值、精度度量等等对模型进行再培训的能力 。
此外 , 图中缺失的另一个关键点是检查模型偏差的能力 , 例如 , 根据不同的维度来分割模型的关键性能指标 。 许多公司也需要能够热交换一个模型或并行运行多个模型 。 前者至关重要 , 可以避免模型在后台更新时 , 用户的请求进入服务器时失败 。 而后者对于A/B测试或模型验证也举足轻重 。
从CI/CD中我们可以得出另一个观点 , 它提到了版本化数据和代码的需要 , 这一点经常被忽略 。
谷歌:TFX
谷歌开发TensorFlow eXtended(TFX)的主要动机是将机器学习模型的生产时间从数月缩短到几周 。 谷歌工程师和科学家为此焦头烂额 , 因为“当机器学习需要应用于生产时 , 实际的工作流程将变得更加复杂 。 ”
本文插图
【技术债务的高息信用卡:深入了解那些知名的端到端机器学习平台】
TensorFlow和TFX均可免费使用 , 不过后者在2019年才发布 , 比谷歌提供的ML基础设施晚了两年 , 远不如前者成熟 。
模型性能度量用于部署安全服务模型 。 因此 , 如果新模型的性能不如现有模型 , 它就无法投入生产 。 按照TFX的说法 , 该模型并非幸运儿 。 有了TFX , 整个过程都是自动化的 。
以下是一个开源TFX组件的基本概述:
· ExampleGen提取并分割输入数据集 。
· StatisticsGen为数据集计算统计数据 。
· SchemaGen检查统计数据并创建数据模式 。
· ExampleValidator在数据集中查找异常值和缺失值 。
· Transform对数据集执行特征工程 。
· Trainer使用TensorFlow对模型进行训练 。
· Evaluator分析训练结果 。
· ModelValidator确保模型的高安全性 。
· Pusher将模型部署到服务基础设施中 。
TensorFlow服务是一个c++后端 , 服务于TensorFlow SavedModel文件 。 为了最小化训练/服务偏差 , TensorFlow转换会“冻结”计算图中的值 , 这样在训练中发现的相同值会在服务中使用 。 当训练在运行时间是单一的固定值时 , DAG可能会有若干个操作 。
推荐阅读
- 潇湘晨报|债务未清偿,将176平米房屋1万元转让给女儿,银行起诉房主要求撤销,法院:支持
- 烹饪|锡纸烧烤技术,三款酱料配方是关键,制作好酱料锡纸类菜品轻松做
- 芯片|我国开始技术封锁!除量子密码以外,还有一项让美国憋屈十几年
- 上海嘉定|一项专利技术使车库车位增多10%,开发商们要坐不住了
- 上海市科学技术委员会|关于做好制订因公出国(境)培训中期规划的补充通知
- 闲情居|华为云手机发布,真正的5G手机,绕过光刻机的技术壁垒
- 一味宠爱|最全盘点卡中国脖子的35项技术,折射中国工业水平的真实现状
- 映璇汽车工作室|终于知道它为啥难卖了,看完长城WEY内部技术团队做的竞品分析
- Java|计算机专业的本科生,该选择学习Java技术体系还是.NET技术体系
- 人员|计划到期!立昂技术:部分董事、高管人员累计减持约47万股
