「不要回答」,数据集来当监听员,评估LLM安全机制就靠它了( 二 )


实验结果
通过对比基于 GPT-4 和 PLM(Longformer)的评估结果,可以发现虽然 GPT-4 和 Longformer 的评估分数与人类标注在绝对值上不完全相同,但被评估的模型所对应的排名几乎相同(除了 ChatGPT 和 Claude 的顺序) 。这证实了我们提出的自动评估措施和方法的有效性,也证明了小模型有达到与 GPT-4 相同水平的潜力 。




推荐阅读