实验结果
通过对比基于 GPT-4 和 PLM(Longformer)的评估结果,可以发现虽然 GPT-4 和 Longformer 的评估分数与人类标注在绝对值上不完全相同,但被评估的模型所对应的排名几乎相同(除了 ChatGPT 和 Claude 的顺序) 。这证实了我们提出的自动评估措施和方法的有效性,也证明了小模型有达到与 GPT-4 相同水平的潜力 。
推荐阅读
- 张学友:“千万不要跟刘嘉玲打麻将,拍戏赚到的50万大部分都给了刘嘉玲!”
- 炒豌豆角要不要焯水
- 上职高等于没前途?北大教授的回答一针见血,网友:话糙理不糙
- 64岁倪萍:若有来生,我既不要爹娘,也不要孩子,更不要家庭
- 王宝强劝说王宝弱:模仿我可以,但请不要打着我的名号商演或破坏
- 张兰遭前夫警告,不要在直播时拿我调侃,霸气回怼:你还狂上了?
- 秋季衣服不要越买越多,日常穿衣以这三件单品为主,舒适又简约
- 主持人问王健林:男人有钱后就去包二奶,他的回答,让所有人敬佩
- 8类食物有害身体不要多吃
- 60岁演员李勤勤近况曝光:参加婚宴打包各种剩菜,害羞让人不要嘲笑她
