给大模型评分的基准靠谱吗？Anthropic来了次大评估( 二 ) _大模型

此外，在实施过程中，本文发现评估中存在一些 bug，使用起来非常不便利，因此 Anthropic 的研究人员在这次实验后放弃了它。
HELM：自上而下地策划一组评估
BIG-bench 是一项「自下而上」的工作，任何人都可以提交任何任务，然后由一组专家组织者进行有限的审查。而 HELM 则采用「自上而下」的方法，由专家决定用什么任务评估模型。
具体来说， HELM 在推理场景、含虚假信息场景等多个场景中评估模型，采用准确性、稳健性、公平性等标准指标。Anthropic 为 HELM 开发人员提供 API 访问权限，以便在其模型上运行基准测试。
相比于 BIG-bench，HELM 有两个优势：1）它不需要进行大量的工程工作，2）可以依靠专家来选择和解释特定的高质量评估。
然而，HELM 也带来了一些挑战。适用于评估其他模型的方法不一定适用于 Anthropic 的模型，反之亦然。例如，Anthropic 的 Claude 系列模型经过训练，遵循特定的文本格式，称为 Human/Assistant 格式。Anthropic 内部评估其模型时会遵循这种特定格式。如果不遵循这种格式，Claude 有时就会给出不寻常的回答，从而使标准评估指标的结果不太可信。
此外，HELM 需要很长的时间才能完成，评估新模型可能需要几个月的时间，并且需要与外部各方进行协调和沟通。
人工智能系统是为了与人进行开放式动态交互而设计的，那么如何对模型进行更接近现实应用的评估？
众包人员进行 A/B 测试
目前，领域内主要（但不完全）依赖一种基本类型的人类评估 —— 在众包平台上进行 A/B 测试，人们在其中与两个模型进行开放式对话，并从模型 A 或 B 中选择响应更有帮助或更无害，根据模型的有用性或无害性对模型进行排名。这种评估方法的优点是与现实环境相对应，并允许对不同的模型进行排名。
然而，这种评估方法有一些局限性，实验运行起来既昂贵又耗时。
首先，这种方法需要与第三方众包平台合作并为其付费，为模型构建自定义 Web 界面，为 A/B 测试人员设计详细的说明，还要分析和存储结果数据，并解决雇用众包人员带来的道德挑战。
在无害性测试情况下，实验还存在使人们接触有害输出的风险。人类评估的结果可能还会因人类评估者的特征存在很大差异，包括人类评估者的创造力水平、动机以及识别所测试系统潜在缺陷的能力。
此外，有用和无害之间存在固有的张力。系统可以通过提供无用的响应（例如「抱歉，我无法帮助您」）来降低有害性。
有用与无害之间的正确平衡是什么？什么指标数值表明模型足够有用且无害？诸多问题需要领域内研究者做更多工作来找到答案。
了解更多内容，请参考原文章。
原文链接：https://www.anthropic.com/index/evaluating-ai-systems

给大模型评分的基准靠谱吗？Anthropic来了次大评估( 二 )

推荐阅读

台风|拒绝惊天逆转，中国00后10-7晋级世锦赛16强，9-2赢赛点被连追5局

『艺迹育儿』还说孕妈生孩子娇气吗？产房男人可以陪同吗？，了解顺产过程的痛

柠檬树|家庭养花不如种树，盆栽柠檬、清香木、九里香，屋里四季飘香

科技匠内忧外患，我们应该怎么办？，科技产品屡屡被限制

土豆的7种花样做法，赶紧收藏，解决近期做饭吃饭大难题

电竞|“只要你每天练习8小时，也可以这么优秀，王者有手就行”

察网|老蒋真话：关于对孟晚舟事件的几点思考

20万元罐天价茶惊现西安

IT之家14锐龙版0点预售，3999元：联想小新Air

电鳗快报|美瑞新材IPO疑云：低价向实控人原东家买材料被输送利润？

『央视』累计确诊2792例，泰国新增27例新冠肺炎确诊病例

牛肝菌和什么在一起吃最好？牛肝菌怎么做好吃？能不能红烧或者炖汤？

家族战队|华为、苹果、小米、OPPO、vivo手机报价

齐白石养生“七戒”

#苏州口腔医院牙医陆博#牙齿痛得要死了，为什么医生还不让拔？

暮年|@所有人：一份来自2020深圳跨境电商供应链博览会的邀请函

污水横流影响居民出行谁来规范这条洗车街

[火星]火星有座奥林匹斯山，如果搬到地球，估计没人能爬到峰顶

仙桃草的功效与作用

第一眼选择哪个杯子，你就是什么性格！