给大模型评分的基准靠谱吗?Anthropic来了次大评估( 二 )


此外,在实施过程中,本文发现评估中存在一些 bug,使用起来非常不便利,因此 Anthropic 的研究人员在这次实验后放弃了它 。
HELM:自上而下地策划一组评估
BIG-bench 是一项「自下而上」的工作,任何人都可以提交任何任务,然后由一组专家组织者进行有限的审查 。而 HELM 则采用「自上而下」的方法,由专家决定用什么任务评估模型 。
具体来说 , HELM 在推理场景、含虚假信息场景等多个场景中评估模型,采用准确性、稳健性、公平性等标准指标 。Anthropic 为 HELM 开发人员提供 API 访问权限 , 以便在其模型上运行基准测试 。
相比于 BIG-bench,HELM 有两个优势:1)它不需要进行大量的工程工作,2)可以依靠专家来选择和解释特定的高质量评估 。
然而,HELM 也带来了一些挑战 。适用于评估其他模型的方法不一定适用于 Anthropic 的模型,反之亦然 。例如,Anthropic 的 Claude 系列模型经过训练,遵循特定的文本格式 , 称为 Human/Assistant 格式 。Anthropic 内部评估其模型时会遵循这种特定格式 。如果不遵循这种格式,Claude 有时就会给出不寻常的回答 , 从而使标准评估指标的结果不太可信 。
此外,HELM 需要很长的时间才能完成,评估新模型可能需要几个月的时间 , 并且需要与外部各方进行协调和沟通 。
人工智能系统是为了与人进行开放式动态交互而设计的,那么如何对模型进行更接近现实应用的评估?
众包人员进行 A/B 测试
目前,领域内主要(但不完全)依赖一种基本类型的人类评估 —— 在众包平台上进行 A/B 测试,人们在其中与两个模型进行开放式对话 , 并从模型 A 或 B 中选择响应更有帮助或更无害,根据模型的有用性或无害性对模型进行排名 。这种评估方法的优点是与现实环境相对应,并允许对不同的模型进行排名 。
然而 , 这种评估方法有一些局限性,实验运行起来既昂贵又耗时 。
首先 , 这种方法需要与第三方众包平台合作并为其付费,为模型构建自定义 Web 界面,为 A/B 测试人员设计详细的说明 , 还要分析和存储结果数据,并解决雇用众包人员带来的道德挑战 。
在无害性测试情况下,实验还存在使人们接触有害输出的风险 。人类评估的结果可能还会因人类评估者的特征存在很大差异 , 包括人类评估者的创造力水平、动机以及识别所测试系统潜在缺陷的能力 。
此外,有用和无害之间存在固有的张力 。系统可以通过提供无用的响应(例如「抱歉 , 我无法帮助您」)来降低有害性 。
有用与无害之间的正确平衡是什么?什么指标数值表明模型足够有用且无害?诸多问题需要领域内研究者做更多工作来找到答案 。
了解更多内容,请参考原文章 。
原文链接:https://www.anthropic.com/index/evaluating-ai-systems




推荐阅读