大模型的幻觉有治了？OpenAI推出“挑刺模型”，让GPT-4自己给自己改作业( 二 )_OpenAI

让所有人意外的是，CriticGPT在这些无差错案例中仍发现了24%的错误，随后人类训练师也证实了这些错误的存在。
Open AI认为CriticGPT模型有潜力应用到非代码任务，它捕捉细微错误的能力特别突出，就算是仔细的人类训练师可能都觉察不到。

文章插图
大语言模型比起人工大幅度提高了检查到代码错误的数量，模型的批注以超过80%数值领先于人工批注

文章插图
ChatGPT和CriticGPT同时都可以比人类训练师捕捉到更多的错误（图中数值越高越好）

文章插图
CriticGPT为ChatGPT-4指出的安全错误
CriticGPT接受问题和答案作为一对进行输入，然后输出在答案中的批注指出特定的错误。批注通常情况下包含多重批注，每一个都与答案的引用部分相关联。

文章插图
此为数据收集示意图
训练师需要修改ChatGPT的响应，添加细微的代码错误。就跟训练师日常进行代码审查一样，他们记录下每个添加错误的解释，然后验证+确认这些错误不会轻易被CriticGPT发现。在“篡改”一部分代码增添bug后，训练师会对篡改版本的批注效果进行排名。
CriticGPT仍需要跟人类肩并肩合作
与其他很多模型一样，其实CriticGPT也是有它的局限性，它只能针对简短的指令进行训练，也许还没有为未来AI系统所需要处理更复杂的事务做好准备。此外，CriticGPT减少了幻觉问题，虽然不能完全消除，但是训练师可以根据产生的这些错误结果进行标注。
研究团队承认CriticGPT可以非常有效地识别代码中某个特定精确位置的错误。然而， AI所产生的真实错误通常散布在生成内容的各个部分，这也对未来的模型迭代提出了挑战。
OpenAI计划将类似CriticGPT的模型集成到RLHF标注管线（综合解决方案）中，为训练师提供AI协助。对于OpenAI来说，开发更好的工具来评估LLM系统内容输出是迈出的一大步，如果没有额外的支持，训练师可能很难对这些内容结果进行评估。
最后，研究人员警告说，就算是训练师跟CriticGPT这样的AI工具一起打配合，在训练大模型遇到特别复杂的任务或响应的时候，这对训练师来说仍然是个不小的挑战。

【大模型的幻觉有治了？OpenAI推出“挑刺模型”，让GPT-4自己给自己改作业】