评测|AI阅卷“翻车” 其实是“翻”在了自然语言处理( 二 )
“目前有很多设计评测指标的方法 , 还有很多改进的方法 , 如在计算准确率的同时也计算召回率等 。 另外 , 还有对评测指标进行评测的 , 即评测的评测 , 看看哪个评测指标更完善 , 更和人的评价一致 。 ”熊德意感叹 , 很多时候 , 自动评测的难度和对应的自然语言处理任务的难度 , 从技术层面来说是一样的 , 比如用机器评价一个译文的好坏与用机器生成一个译文的难度类似 , 用机器评判一个文档摘要的好坏与用机器生成一个摘要的难度也差不多 。
可结合人工评测让系统更智能
“传统的自动评测指标通常是基于符号进行计算的 , 现在深度学习等AI技术也越来越多地应用于测评工具中 。 ”熊德意介绍 , 使用深度学习 , 可以把语言符号映射到实数稠密向量的语义空间 , 利用语义向量计算相似度 。 哪怕说的词语和计算机原本学习的不一样 , 但只要语义是一致的 , 机器就可以进行精准的评价 。 因此 , 基于深度学习的自动评测某种程度上可以应对语言的多样性挑战 。 不过深度学习也有一个问题 , 就是需要大量的数据让机器进行学习 。
基于自监督学习的预训练语言模型 , 近几年 , 在语言表示学习中 , 取得了突破性的进展 。 “OpenAI的预训练语言模型GPT-3 , 在5000亿单词的海量语料上训练了一个带有1750亿个参数的神经网络 , 通过大量学习网络上各种语言的文本 , GPT-3形成了强大的语言表示能力 , 可以进行多种任务 , 比如自动翻译、故事生成、常识推理、问答等 , 甚至可以进行加减法运算 , 比如其两位数加减法正确率达到100% , 五位数加减法正确率接近10% 。 ”熊德意介绍 , 不过 , 这么庞大的神经网络 , 如果用单精度浮点数存储 , 需要700G的存储空间 , 另外模型训练一次就花费了460万美元 。 因此 , 即使GPT-3具有较好的零样本、小样本学习能力 , 其高昂的成本使其离普遍可用还有很远的距离 。
但是AI作为阅卷评测“老师” , 其又有人工不可比拟的优势 。 比如AI自动批阅卷系统相比人工批阅速度更快 , 老师不可能一次记住所有的多项选择题答案 , 需要不断检查标准答案 , 这是很费时的 , 自动批阅系统帮助老师大大提高了效率;另外 , 自动批阅系统更加理性 , 不受外界条件干扰 , 不会因疲劳等原因导致误判 。 即使在复杂的干扰环境中 , 仍然可以得到正确的结果;AI阅卷系统还可以在评分后直接做好学情分析 , 统计出考试数据、错题数据等教学材料 , 帮助老师减负增效 , 帮助学生提高学习效率 。
【评测|AI阅卷“翻车” 其实是“翻”在了自然语言处理】“将主观题合理地客观化 , 可以降低自动阅卷的难度 。 ”熊德意表示 , 对无法客观化的主观题 , 虽然设定全面的评测标准比较难 , 但是设定某一方面的评测标准还是可行的 , 比如针对单词词法、句子语法的评判 , 目前准确率还是挺高的 , 这类技术可以从实验室走向产品应用 。
也可以引入人工评测 , 对AI阅卷系统打分进行复核与修正 , 通过这种反复的修正 , 累积大量的评测训练数据 , 让机器评分变得更加智能 。
“利用自然语言处理等人工智能技术 , 进一步完善主观智能评分系统 , 将是未来教育领域的一个非常重要的课题 。 ”熊德意说 , 以后的AI自动批阅系统肯定会越来越“聪明” , 人工智能与教育的结合也会越来越紧密 。
声明:转载此文是出于传递更多信息之目的 。 若有来源标注错误或侵犯了您的合法权益 , 请作者持权属证明与本网联系 , 我们将及时更正、删除 , 谢谢 。
[责任编辑: ]
推荐阅读
- 李润祺|气运联盟再度被吐槽唱歌难听,冠军乐队翻车,除了鼓手几乎都跑调
- 文艺圈|杨紫粉控评手册翻车?疑抄袭热巴粉控评模板,文案中连名字都没改
- 女仆报新闻|杨超越张杰师生合体,双双表演翻车,回应称也算跳了一下
- 促销|高洁丝“双11”促销文字游戏翻车背后
- 映象网|大货车被扣后“离奇”翻车 派出所副所长承诺赔维修费
- 最前线|四大卫视双11晚会齐翻车:易烊千玺被嘲难听,关晓彤对口型,王源唱笑了
- 女主持|湖南卫视超拼夜槽点多:汪涵全程看台本,女主持卡顿明显接连翻车
- 鲜闻快讯|双11晚会:周深、邓紫棋撑场面,王源意外翻车,临场反应值得称赞
- 选民|美国分化:不敢直面民意 大选民调再度翻车
- 消息资讯|真让王守义说中了?iPhone 12评测:没下手的还是等“十三香”吧
