CV|专访ACL2020最佳论文二作:全新NLP模型评测方法论,思路也适用于CV( 四 )
最后测试带来的一个恒久不变的问题:so what?一个模型有问题之后,应该用什么样的标准来决定一个模型是不是可以被公开部署 (比如可能公平性测试的容错率可能远低于拼写错误)?应该如何改进它?
AI 科技评论:请问软件测试的思想只适用于NLP领域吗 ,在CV领域可行吗,应该怎么去设计测试系统?
吴彤霜:我相信是可行的!抽象来讲,本文图1的这种框架似乎能直接套用在CV上。
比如说一个最简单的狗和狼的分类,这个模型首先得能辨认有动物出现 (MFT),然后改变图片的背景应该不影响预测 (INV),但改变动物的头的形状应该是要影响的 (DIR)。vision里的“改写”效果其实比NLP好很多,也许更好用也说不定 :)
对设计系统而言,我觉得比较重要的是抽取基本组件。在NLP版本的CheckList里有一个重要组件就是写生成template/模板;也许在vision里则是需要提供一些基础像素之类的。
当然也可以考虑除了行为和单元测试之外的测试思想,比如如果是pipeline模型,考虑如何设计集成测试也许也会很有用 :)
AI 科技评论:可以简单介绍一下你们的团队成员吗,以及你们的近期工作、未来研究方向?
吴彤霜:隆重介绍一下没有出镜的一作吧,marco也是华大的博士,2018年毕业以后就加入了微软研究院,主要在做模型可解释性和分析,之前很有名的LIME(一种解释机器学习模型的方法——Local Interpretable Model-Agnostic Explanations)就是出自他手。除了CheckList,他今年在CVPR上也有一篇合作论文,是分析vqa model的稳定性的。现在主要在做vision模型的错误分析以及模型比较。
我们现在也在合作一个新工作,这项工作更多是关于如何人去探索模型的可解释性。虽然现在主要做的都是人如何检查模型,但是我们对于模型如何能反过来规范人或者帮助人也很感兴趣 :) 三四作Carlos和Sameer都是marco的导师,分别是ML和NLP的大佬。
3
总结
虽然CheckList目前也有一些不足比如CheckList不能直接用于非行为问题,例如数据版本控制问题、标记错误、注释器偏差、最坏情况下的安全问题或缺乏可解释性。
但是不可否认的是,使用CheckList创建的测试可以应用于任何模型,这使得它很容易被纳入当前的基准测试或评估pipeline中。用户研究表明,CheckList很容易学习和使用,对已经对模型进行了长时间测试的专家用户以及在任务中缺乏经验的实践者都很有帮助。
另外对吴同学的专访,我们相信,本篇论文工作确实开创地把软件测试系统引入NLP模型的测试之中并且提供了完善的测试工具。这将会给社区和企业带来很大的商业价值,比如CheckList测试工具将会节省很大的人力成本。
最后,我们相信,这种系统引进软件测试的思想也将会在CV乃至整个AI领域大有作为。
对代码有兴趣的同学可以尽情pull和issue:https://github.com/marcotcr/checklist
【 CV|专访ACL2020最佳论文二作:全新NLP模型评测方法论,思路也适用于CV】感谢吴同学的用心回答,祝吴同学一路优秀下去,心想事成~天天开心!
推荐阅读
- 八达岭长城|3.25万!今起八达岭长城单日最佳承载量上调
- 许光汉|许光汉和老狼先后到访蘑菇屋,本该是满屏尬聊,结果却是四季最佳
- 龚|专访龚永泽:成都烟火气 让经济更有活力
- 现场|Sunnee杨芸晴大型打脸&翻车现场|由你专访彩蛋
- 土星|明天是土星冲日最佳赏期
- 河神|专访《河神2》监制汪启楠:换代,用商业大片的要求制作网剧
- 张明汉|复读是一种选择,更是一种态度------专访广外中高考培训项目负责人张明汉
- 石家庄|2020年新高考对复读生的影响-----专访河北明进复读学校杨校长
- 于落寞中前行——专访诗人赫赫扬扬|于落寞中前行——专访诗人赫赫扬扬
- 新星|厉害了!女排21岁天才新星强势崛起,已成朱婷在老东家的最佳替身
