大模型的幻觉有治了?OpenAI推出“挑刺模型”,让GPT-4自己给自己改作业( 二 )


让所有人意外的是,CriticGPT在这些无差错案例中仍发现了24%的错误,随后人类训练师也证实了这些错误的存在 。
Open AI认为CriticGPT模型有潜力应用到非代码任务 , 它捕捉细微错误的能力特别突出,就算是仔细的人类训练师可能都觉察不到 。

大模型的幻觉有治了?OpenAI推出“挑刺模型”,让GPT-4自己给自己改作业

文章插图
大语言模型比起人工大幅度提高了检查到代码错误的数量,模型的批注以超过80%数值领先于人工批注
大模型的幻觉有治了?OpenAI推出“挑刺模型”,让GPT-4自己给自己改作业

文章插图
ChatGPT和CriticGPT同时都可以比人类训练师捕捉到更多的错误(图中数值越高越好)
大模型的幻觉有治了?OpenAI推出“挑刺模型”,让GPT-4自己给自己改作业

文章插图
CriticGPT为ChatGPT-4指出的安全错误
CriticGPT接受问题和答案作为一对进行输入,然后输出在答案中的批注指出特定的错误 。批注通常情况下包含多重批注,每一个都与答案的引用部分相关联 。
大模型的幻觉有治了?OpenAI推出“挑刺模型”,让GPT-4自己给自己改作业

文章插图
此为数据收集示意图
训练师需要修改ChatGPT的响应,添加细微的代码错误 。就跟训练师日常进行代码审查一样 , 他们记录下每个添加错误的解释,然后验证+确认这些错误不会轻易被CriticGPT发现 。在“篡改”一部分代码增添bug后,训练师会对篡改版本的批注效果进行排名 。
CriticGPT仍需要跟人类肩并肩合作
与其他很多模型一样,其实CriticGPT也是有它的局限性,它只能针对简短的指令进行训练,也许还没有为未来AI系统所需要处理更复杂的事务做好准备 。此外,CriticGPT减少了幻觉问题,虽然不能完全消除,但是训练师可以根据产生的这些错误结果进行标注 。
研究团队承认CriticGPT可以非常有效地识别代码中某个特定精确位置的错误 。然而 , AI所产生的真实错误通常散布在生成内容的各个部分,这也对未来的模型迭代提出了挑战 。
OpenAI计划将类似CriticGPT的模型集成到RLHF标注管线(综合解决方案)中,为训练师提供AI协助 。对于OpenAI来说,开发更好的工具来评估LLM系统内容输出是迈出的一大步,如果没有额外的支持,训练师可能很难对这些内容结果进行评估 。
最后 , 研究人员警告说,就算是训练师跟CriticGPT这样的AI工具一起打配合,在训练大模型遇到特别复杂的任务或响应的时候 , 这对训练师来说仍然是个不小的挑战 。

【大模型的幻觉有治了?OpenAI推出“挑刺模型”,让GPT-4自己给自己改作业】


推荐阅读