「不要回答」，数据集来当监听员，评估LLM安全机制就靠它了( 二 ) _LLM

实验结果
通过对比基于 GPT-4 和 PLM（Longformer）的评估结果，可以发现虽然 GPT-4 和 Longformer 的评估分数与人类标注在绝对值上不完全相同，但被评估的模型所对应的排名几乎相同（除了 ChatGPT 和 Claude 的顺序）。这证实了我们提出的自动评估措施和方法的有效性，也证明了小模型有达到与 GPT-4 相同水平的潜力。

「不要回答」，数据集来当监听员，评估LLM安全机制就靠它了( 二 )

推荐阅读

颖姐娱谈|太到位！网曝金晨不仅送姐姐们上万护肤品，还送了一样浪漫的礼物

轰动|村庄发现的文物，出土后即轰动全国，两千多年前可调动千军万马

『胡十三』上线时间大致确定，这次改动有点大，魔兽世界：正式服9.0版本

湿气重该喝什么茶

央视新闻|海关总署暂停澳大利亚1家企业对华出口

『北京不为职工开公积金账户罚5万』北京：不为职工开公积金账户罚5万

净利润|上半年科创板上市企业业绩总体保持高速增长

晒与唐尼高司令合影，关继威否认被歧视，网友想多了还是另有苦衷

装修时没埋网线，现在只有门口的弱电箱里有网线，怎样解决

时尚路人|针织衫配五分裤，健美身材一览无遗，妮可·墨菲外出购物

宜检网|鼻咽癌，别让“发现即是中晚期”

「候知健」就骗出地面所有导弹，美军战机欺骗中俄防空的绝招：仅需几枚弹药

大一室友就不理我，咋办

玩车教授|应该不用推下海了吧？，如此强大的新飞度

BiuFashion|伊能静打扮和老气不沾边，穿“儿童彩虹装”出镜，模样嫩得真招摇

GameRes游资网|《守望先锋》成长的四年，简析其塑造玩法策略性的努力

最容易搞混的四组道路标志，开车别中招

一琦的小世界|腿长的女生全凑一块了，势必决出谁第一

闽东日报|拼了！》11月开拍！宁德少年足球题材将登上银幕！，《站起来

北京日报|海淀区永定路街道：多措并举做好封闭小区居民生活服务保障