机器之心|ML Ops：数据质量是关键( 二 )

数据获取阶段
即使是在数据集处理的早期阶段，从长远来看，对数据进行质量检查和文档记录可以极大地加速操作。对于工程师来说，可靠的数据测试非常重要，可以使他们安全地对数据获取 pipeline 进行更改，而不会造成不必要的问题。同时，当从内部和外部上游来源获取数据时，为了确保数据出现未预料的更改，在获取阶段进行数据验证是非常重要的。

本文插图

模型开发
本文将特征工程、模型训练和模型测试作为核心模型开发流程的一部分。在这个不断迭代的过程中，围绕数据转换代码和支持数据科学家的模型输出提供支持，因此在一个地方进行更改不会破坏其他地方的内容。
在传统的 DevOps 中，通过 CI/CD 工作流进行持续的测试，可以快速地找出因代码修改而引入的任何问题。更进一步，大多数软件工程团队要求开发人员不仅要使用现有的测试来测试代码，还要在创建新功能时添加新的测试。同样，运行测试以及编写新的测试应该是 ML 模型开发过程的一部分。
在生产中运行模型
与所有 ML Ops 一样，在生产环境中运行的模型依赖于代码和输入数据，来产生可靠的结果。与数据获取阶段类似，我们需要保护数据输入，以避免由于代码更改或实际数据更改而引起的不必要问题。同时，我们还应该围绕模型输出进行一些测试，以确保模型继续满足我们的期望。
尤其是在具有黑盒 ML 模型的环境中，建立和维护质量标准对于模型输出至关重要。同样地，在共享区域记录模型的预期输出可以帮助数据团队和利益相关者定义和传达「数据合同」，从而增加 ML pipeline 的透明度和信任度。

本文插图

炼丹的好炉子！Amazon SageMaker Studio详解
10月15日， AWS资深解决方案架构师黄德滨将直播讲解Amazon SageMaker的相关组件，如studio、autopilot等，并通过在线演示展示这些核心组件对AI模型开发效率的提升。

机器之心|ML Ops：数据质量是关键( 二 )

推荐阅读

长裙|32岁刘亦菲长裙＋“泡泡鞋”倚跑车拍照，神仙美貌没有尽头！

钱币收藏感想

人参果的籽可以吃吗

女人|为什么很多女人拒绝做“婚检”？过来人告诉你3个原因

石天龙|原创李小龙传人打不过小混混？网友爆料：李小龙模仿者差点被打死

Faker|电竞杂记（二）：侯爷Easyhoon——日暮途远

李小龙|李小龙阴间大战007与吸血鬼教父，从未见过如此沙雕的功夫片！

甜腻的嘴角|鸿蒙取代安卓，会让“老美”睡不着觉，华为重新进行布局

安检可以带水杯吗国内安检可以带水杯吗

北青网|拼多多“后高考数据”发布：数码产品涨210%，迪士尼门票热卖

检测|大连公布新增的12例新冠肺炎确诊病例轨迹

小康育儿|都是有原因的，4种父母特别需要反省，父母和孩子不亲近

时尚美妆妞|穿白色卡通T恤配高腰裤，“巴掌脸”太减龄，孙俪现身薇娅直播间

北京头条客户端|北京中小学明起陆续开学 交警：早高峰将提前至6:45

哈里王子夫妇刚“引退” 杜莎夫人蜡像馆就动手了……

还原｜女子山中失联4天后被找到：靠喝山泉水维持

[小李子八卦事]人群中果然是最亮眼的一个，吴谨言十年前艺考照被扒

「救命」27秒，14人救1条命！

香港|香港特区政府纾困计划为经济保驾护航

先人■广州开启清明云祭扫“信邮哀思”，指引来了！