评测|AI阅卷“翻车” 其实是“翻”在了自然语言处理系统|进行|评分|

_原题为 AI阅卷“翻车” 其实是“翻”在了自然语言处理
AI阅卷“翻车” 其实是“翻”在了自然语言处理
本报采访人员陈曦
开学季，美国一款号称服务两万所学校的AI阅卷系统遭到质疑，学生们只要借助系统漏洞，输入相应关键词，即使关键词之间并无关联，也能轻易获得高分。
随着人工智能的发展，不少教育App都应用了智能评分系统，评分系统阅卷迅速，及时出分，受到不少师生的欢迎。但同时，也有不少家长吐槽智能评分系统，像英语跟读App的评分系统，有时候即使拥有英语专业八级水平的人，测试得分也只有80分。
除了应用于英语口语的智能评分系统，人工智能还被应用于判卷上。不过这种智能阅卷系统也时有“翻车”现象。据报道，在开学季，一款号称服务于美国两万所学校的AI阅卷系统就受到了质疑，学生们借助它的漏洞， “裸考”就能轻松及格。之所以被学生们钻了空子，是由于该系统只是通过关键词进行评分，学生们只要输入相应关键词，即使几个关键词之间没有关系，也能顺利过关甚至获得高分。
阅卷前需先设定评判标准
“自动测评打分系统一般需要先设定评测的标准，而后根据设定的标准去设计合适的评测算法与模型。 ”天津大学智能与计算学部教授、博士生导师熊德意介绍，比如像口语测评打分，就需要机器去评判人的发音是否标准，所读句子的重音是否正确，读出的语句是否连贯流畅，连读部分是否准确等。
AI阅卷系统则涉及到对语言文字的评判，涵盖很多方面，如语法、语义等，会大量运用到自然语言处理技术。
“自然语言处理技术是人工智能的一个重要分支，研究利用计算机对自然语言进行智能化处理，基础的自然语言处理技术主要围绕语言的不同层级展开，包括音位(语言的发音模式)、形态(字、字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(语言表述对应的意思)、语用(不同语境中的语义解释)、篇章(句子如何组合成段落)7个层级。 ”熊德意强调，这些基本的自然语言处理技术经常被运用到下游的多种自然语言处理任务(如机器翻译、对话、问答、文档摘要等)中，自动阅卷中的语言文字评测通常涉及这7个层级的若干层。
设计自动评测指标的方法有多种，通常会根据不同的评判类型去选择适合的方法。 “比如阅卷系统若要进行翻译题的自动评判，可以让老师事先写好多个参考译文答案，然后把学生的答案和参考答案进行类比，计算它们的相似度作为学生答案好坏的评测指标。 ”熊德意举例说，机器翻译常用的评测指标BLEU ，就是基于参考译文和机器译文之间的N-grams(N元)匹配度计算相似度的。
一个单词是一元，两个相连的单词是二元，还有三元、四元，如果答案中有一个单词与参考答案中的单词一致，那么就会给出一个一元评分，类似的可以计算二元、三元、四元的评分。研究人员为不同元设置不同权重，然后把得分统筹起来变成一个客观值，得分越高就说明两者之间的相似性越高。
不同AI评分系统结果相差甚远
此次AI阅卷系统“翻车”的导火索是一位美国历史系教授的儿子在进行历史考试的时候只得到了50%的分数，而她对儿子的答案进行评测后，觉得孩子的回答基本没有问题。
同样的答案，人工评价和机器评价为何有如此大的出入？
“这就是基于AI算法的自动评测面临的最大挑战：如何与人工评价保持一致。应对这个挑战需要解决的问题很多。比如如何制定合适的评测标准，主观题进行自动评测必须要有合适的评测标准和规范；比如如何应对语言的千变万化，语言的多样性是自然语言处理技术的主要挑战之一，语言的自动测评和自动处理都要面对多样性的挑战；比如如何设计一个综合性的评测指标，虽然目前有各种各样的指标，但是很少有指标综合考虑语言文字的方方面面，例如作文自动阅卷，可能要考虑用词是否合理(词汇)、句子是否流畅(句法)、段落组织是否有条理(篇章)、内容是否扣题(语义、语用)等。 ”熊德意说，上面提到的BLEU就是只考虑了单词形式的严格匹配，没有考虑单词的形态变化、语义相似性、译文的句法合理性等因素。
“遵循的评测规则、评判的出发点不同，相应的算法模型都不一样，因此最后的结果也会相差甚远。 ”熊德意说。
因此仅仅利用一种评测方法显然是不全面的，这也就解释了当孩子的母亲尝试在答案里加入“财富、商队、中国、印度”等题目中的关键词时，即使这些关键词之间没有任何串联，她也得了满分。 “可能这个AI阅卷系统只使用了简单的关键词匹配，因此会出现‘关键词沙拉’也能蒙混过关的情况。 ”熊德意解释。
此外，口语的人工测评与机器测评也存在较大出入。 “近年来，语音识别性能虽然在深度学习技术的推动下取得了显著的提升，但是在开放环境、噪音环境下，这种识别率就会下降很多。 ”熊德意解释，如果机器“听”错了一个单词，而后机器进行测评，就会形成一个错误传播，也就是上游系统的错误会导致下一系统错误，错上加错，越错越离谱，测评结果也会大相径庭。

评测|AI阅卷“翻车” 其实是“翻”在了自然语言处理

推荐阅读

火星|印度神童和火星男孩，对2020年作出预言，哪位才是真正的预言家？

恩施发布清江上游堰塞湖溃坝预警：做好撤离准备

#傅晶#靳东问傅晶：为何会客串《如果岁月可回头》，傅晶的回复全场笑翻

银行存款|武汉一律师中枪身亡全国律协发声女朋友目击男友被害全过程

关节炎能治好吗

煮虾仁多长时间能熟

阿福妈妈的育儿经|可以从这3方面入手，大人要尽早教育，想让孩子养成好习惯

勒布朗·詹姆斯|詹姆斯捧起FMVP奖杯瞬间霍华德躲在最后一排若有所思隆多表情独特

东方网|上海书展“中场休息”1小时全场消杀只为安全

小军哥看历史■福运绵绵的3生肖，未来一周将会有财神相助，积德行善

飞机没赶上能改签吗。航班没赶上，机票会取消么?

#防控#疫情防控发布会 | 上海复工单位必须做到“四个100%”严禁

冷瞳|这些品牌在成都车展上的重磅车型推荐，WEY、领克、红旗和星途

搞笑段子趣图|这么吃面容易挨揍，搞笑gif-小伙子

「野火科技」利润超过115亿，雷军等董明珠“开盘”，小米集团年收入2058亿

氧化钙的用途高活性氧化钙的用途

睡前减肥瑜伽，轻松练出人鱼线

|头一次见有人家里铺这种地板，省钱美观又实用，后悔我家才察觉

CVT|江淮瑞风S2变速器故障终召回车主已维权、投诉多年

作为有故事的女性，是种怎么样的体验