此外,在实施过程中,本文发现评估中存在一些 bug,使用起来非常不便利,因此 Anthropic 的研究人员在这次实验后放弃了它 。
HELM:自上而下地策划一组评估
BIG-bench 是一项「自下而上」的工作,任何人都可以提交任何任务,然后由一组专家组织者进行有限的审查 。而 HELM 则采用「自上而下」的方法,由专家决定用什么任务评估模型 。
具体来说 , HELM 在推理场景、含虚假信息场景等多个场景中评估模型,采用准确性、稳健性、公平性等标准指标 。Anthropic 为 HELM 开发人员提供 API 访问权限 , 以便在其模型上运行基准测试 。
相比于 BIG-bench,HELM 有两个优势:1)它不需要进行大量的工程工作,2)可以依靠专家来选择和解释特定的高质量评估 。
然而,HELM 也带来了一些挑战 。适用于评估其他模型的方法不一定适用于 Anthropic 的模型,反之亦然 。例如,Anthropic 的 Claude 系列模型经过训练,遵循特定的文本格式 , 称为 Human/Assistant 格式 。Anthropic 内部评估其模型时会遵循这种特定格式 。如果不遵循这种格式,Claude 有时就会给出不寻常的回答 , 从而使标准评估指标的结果不太可信 。
此外,HELM 需要很长的时间才能完成,评估新模型可能需要几个月的时间 , 并且需要与外部各方进行协调和沟通 。
人工智能系统是为了与人进行开放式动态交互而设计的,那么如何对模型进行更接近现实应用的评估?
众包人员进行 A/B 测试
目前,领域内主要(但不完全)依赖一种基本类型的人类评估 —— 在众包平台上进行 A/B 测试,人们在其中与两个模型进行开放式对话 , 并从模型 A 或 B 中选择响应更有帮助或更无害,根据模型的有用性或无害性对模型进行排名 。这种评估方法的优点是与现实环境相对应,并允许对不同的模型进行排名 。
然而 , 这种评估方法有一些局限性,实验运行起来既昂贵又耗时 。
首先 , 这种方法需要与第三方众包平台合作并为其付费,为模型构建自定义 Web 界面,为 A/B 测试人员设计详细的说明 , 还要分析和存储结果数据,并解决雇用众包人员带来的道德挑战 。
在无害性测试情况下,实验还存在使人们接触有害输出的风险 。人类评估的结果可能还会因人类评估者的特征存在很大差异 , 包括人类评估者的创造力水平、动机以及识别所测试系统潜在缺陷的能力 。
此外,有用和无害之间存在固有的张力 。系统可以通过提供无用的响应(例如「抱歉 , 我无法帮助您」)来降低有害性 。
有用与无害之间的正确平衡是什么?什么指标数值表明模型足够有用且无害?诸多问题需要领域内研究者做更多工作来找到答案 。
了解更多内容,请参考原文章 。
原文链接:https://www.anthropic.com/index/evaluating-ai-systems
推荐阅读
- 母亲节礼物做什么,母亲节送给母亲最好的礼物是什么
- 情书怎么写给女生表白50字 情书怎么写给女生
- 情书大全写给女生表白 情书大全写给女生表白100字
- 怎样给小孩选奶粉比较好 给孩子选奶粉怎么选择
- 金鸡奖四大遗珠:梁朝伟何德何能?王一博输给李雪健不公平
- 口腔宣传语,医生写给口腔领导的祝福语
- 韦神因为吃相太难看,遭到“丈母娘”的嫌弃:不会让女儿嫁给他
- 陈婷在做饭,突然听到张艺谋怒吼:那个洋人算什么,赶紧给我离婚
- 万万没想到,她24岁嫁给42岁患病的程雷,如今却成了人生赢家
- 和富豪离婚,嫁给普通人的翁虹,真的幸福吗?
