评测|AI阅卷“翻车” 其实是“翻”在了自然语言处理
_原题为 AI阅卷“翻车” 其实是“翻”在了自然语言处理
AI阅卷“翻车” 其实是“翻”在了自然语言处理
本报采访人员 陈 曦
开学季 , 美国一款号称服务两万所学校的AI阅卷系统遭到质疑 , 学生们只要借助系统漏洞 , 输入相应关键词 , 即使关键词之间并无关联 , 也能轻易获得高分 。
随着人工智能的发展 , 不少教育App都应用了智能评分系统 , 评分系统阅卷迅速 , 及时出分 , 受到不少师生的欢迎 。 但同时 , 也有不少家长吐槽智能评分系统 , 像英语跟读App的评分系统 , 有时候即使拥有英语专业八级水平的人 , 测试得分也只有80分 。
除了应用于英语口语的智能评分系统 , 人工智能还被应用于判卷上 。 不过这种智能阅卷系统也时有“翻车”现象 。 据报道 , 在开学季 , 一款号称服务于美国两万所学校的AI阅卷系统就受到了质疑 , 学生们借助它的漏洞 , “裸考”就能轻松及格 。 之所以被学生们钻了空子 , 是由于该系统只是通过关键词进行评分 , 学生们只要输入相应关键词 , 即使几个关键词之间没有关系 , 也能顺利过关甚至获得高分 。
阅卷前需先设定评判标准
“自动测评打分系统一般需要先设定评测的标准 , 而后根据设定的标准去设计合适的评测算法与模型 。 ”天津大学智能与计算学部教授、博士生导师熊德意介绍 , 比如像口语测评打分 , 就需要机器去评判人的发音是否标准 , 所读句子的重音是否正确 , 读出的语句是否连贯流畅 , 连读部分是否准确等 。
AI阅卷系统则涉及到对语言文字的评判 , 涵盖很多方面 , 如语法、语义等 , 会大量运用到自然语言处理技术 。
“自然语言处理技术是人工智能的一个重要分支 , 研究利用计算机对自然语言进行智能化处理 , 基础的自然语言处理技术主要围绕语言的不同层级展开 , 包括音位(语言的发音模式)、形态(字、字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(语言表述对应的意思)、语用(不同语境中的语义解释)、篇章(句子如何组合成段落)7个层级 。 ”熊德意强调 , 这些基本的自然语言处理技术经常被运用到下游的多种自然语言处理任务(如机器翻译、对话、问答、文档摘要等)中 , 自动阅卷中的语言文字评测通常涉及这7个层级的若干层 。
设计自动评测指标的方法有多种 , 通常会根据不同的评判类型去选择适合的方法 。 “比如阅卷系统若要进行翻译题的自动评判 , 可以让老师事先写好多个参考译文答案 , 然后把学生的答案和参考答案进行类比 , 计算它们的相似度作为学生答案好坏的评测指标 。 ”熊德意举例说 , 机器翻译常用的评测指标BLEU , 就是基于参考译文和机器译文之间的N-grams(N元)匹配度计算相似度的 。
一个单词是一元 , 两个相连的单词是二元 , 还有三元、四元 , 如果答案中有一个单词与参考答案中的单词一致 , 那么就会给出一个一元评分 , 类似的可以计算二元、三元、四元的评分 。 研究人员为不同元设置不同权重 , 然后把得分统筹起来变成一个客观值 , 得分越高就说明两者之间的相似性越高 。
不同AI评分系统结果相差甚远
此次AI阅卷系统“翻车”的导火索是一位美国历史系教授的儿子在进行历史考试的时候只得到了50%的分数 , 而她对儿子的答案进行评测后 , 觉得孩子的回答基本没有问题 。
同样的答案 , 人工评价和机器评价为何有如此大的出入?
“这就是基于AI算法的自动评测面临的最大挑战:如何与人工评价保持一致 。 应对这个挑战需要解决的问题很多 。 比如如何制定合适的评测标准 , 主观题进行自动评测必须要有合适的评测标准和规范;比如如何应对语言的千变万化 , 语言的多样性是自然语言处理技术的主要挑战之一 , 语言的自动测评和自动处理都要面对多样性的挑战;比如如何设计一个综合性的评测指标 , 虽然目前有各种各样的指标 , 但是很少有指标综合考虑语言文字的方方面面 , 例如作文自动阅卷 , 可能要考虑用词是否合理(词汇)、句子是否流畅(句法)、段落组织是否有条理(篇章)、内容是否扣题(语义、语用)等 。 ”熊德意说 , 上面提到的BLEU就是只考虑了单词形式的严格匹配 , 没有考虑单词的形态变化、语义相似性、译文的句法合理性等因素 。
“遵循的评测规则、评判的出发点不同 , 相应的算法模型都不一样 , 因此最后的结果也会相差甚远 。 ”熊德意说 。
因此仅仅利用一种评测方法显然是不全面的 , 这也就解释了当孩子的母亲尝试在答案里加入“财富、商队、中国、印度”等题目中的关键词时 , 即使这些关键词之间没有任何串联 , 她也得了满分 。 “可能这个AI阅卷系统只使用了简单的关键词匹配 , 因此会出现‘关键词沙拉’也能蒙混过关的情况 。 ”熊德意解释 。
此外 , 口语的人工测评与机器测评也存在较大出入 。 “近年来 , 语音识别性能虽然在深度学习技术的推动下取得了显著的提升 , 但是在开放环境、噪音环境下 , 这种识别率就会下降很多 。 ”熊德意解释 , 如果机器“听”错了一个单词 , 而后机器进行测评 , 就会形成一个错误传播 , 也就是上游系统的错误会导致下一系统错误 , 错上加错 , 越错越离谱 , 测评结果也会大相径庭 。
推荐阅读
- 李润祺|气运联盟再度被吐槽唱歌难听,冠军乐队翻车,除了鼓手几乎都跑调
- 文艺圈|杨紫粉控评手册翻车?疑抄袭热巴粉控评模板,文案中连名字都没改
- 女仆报新闻|杨超越张杰师生合体,双双表演翻车,回应称也算跳了一下
- 促销|高洁丝“双11”促销文字游戏翻车背后
- 映象网|大货车被扣后“离奇”翻车 派出所副所长承诺赔维修费
- 最前线|四大卫视双11晚会齐翻车:易烊千玺被嘲难听,关晓彤对口型,王源唱笑了
- 女主持|湖南卫视超拼夜槽点多:汪涵全程看台本,女主持卡顿明显接连翻车
- 鲜闻快讯|双11晚会:周深、邓紫棋撑场面,王源意外翻车,临场反应值得称赞
- 选民|美国分化:不敢直面民意 大选民调再度翻车
- 消息资讯|真让王守义说中了?iPhone 12评测:没下手的还是等“十三香”吧
