3. 这些人类的偏好被用来开发一个“奖励模型”,预测人类会喜欢哪些总结
4. 然后,这个奖励模型被用来提供反馈和奖励,以增强人工智能代理生成被人类认为优秀的摘要
这一标注操作会进行多轮,以有效改进这个语言模型的效果 。
RLAIF系统经历了相同的整体过程 。然而关键的区别在于,这里面作为裁判的一个能力更强经过提前训练的“现成”自然语言模型 。作者用经过精调后的PaLM-2.7B 来提供反馈判断,形成一套完整地对语言模型输出打分的偏好系统 。这个先进的人工智能系统的反馈被用来代替人工评分,以训练提供训练奖励的奖励模型 。

文章插图
基本框架完全一致
训练这个用作偏好打分的LLM的过程也相当简单明了,完全通过提示(prompting)完成 。共四步:
1. 情况简述:介绍并描述当前的任务
2. 小样本给予(可选步骤):给出一个文本事例,几组总结的结果,一个可用的理性思维链和一个偏好判断
3. 需注释内容的范例:一个文本和一组总结
4. 结论:一个对LLM的提示终止线(比如说:偏好的总结=XX)

文章插图
三步走的方法
在用两种方法完成一轮强化学习训练后,人类标记员对这两个训练完成模型的总结能力进行了评价 。其结论是RLAIF策略与RLHF策略效果相当 。经RLAIF训练过的模型总结的结果在 71%的情况下超过了SFT基线的预训练模型的结果,而经RLHF训练过的模型在73%的情况下超过了基础与训练模型(其中2%差异可以认为没有统计学意义) 。单纯比较经过强化学习的结果语言模型,RLAIF对RLHF的胜率各为50% 。这就意味着纯粹使用AI反馈进行微调的RLAIF系统在强化学习方面,和人类反馈能达到一样的效果 。

文章插图
两种方法的评分比较
作者之后把研究更推进了一步 。既然大语言模型已经在很多标准测试中取得了比一般人更好的成绩,针对这种有着某种标准的偏好反馈任务,有没有可能优化RLAIF的水平,让它们甚至可能超过人类标注员的水平呢?完全有可能 。
一个方向是加强提示工程 。作者初步试验了使用不同的提示词技术优化RLAIF给出的判断 。其中包扩一些提示策略、思维链推理和自我一致性 。最终发现无上下文示例提示+思想链的效果最好 。而用自我一致性要求和较多上下文示例去加强思维链反而有可能会降低AI的训练能力 。这表明随着研究人员的不断尝试,RLAIF的性能仍有很大地提升空间 。

文章插图
0-Shot最好
除了提示工程上的改进,模型本身的能力也会影响最终的标注水平 。作者接下里还对RLAIF系统进行了改变计算规模的实验 。以及观察注释经验提升对判断准确的影响 。好不意外,他们发现较大的模型在RLAIF训练后产生更高质量的反馈,从而导致更好的最终总结性能 。然而经验对效果提升的影响是比较有限的,在RLAIF进行过数千个带注释的摘要比较后,它带来的准确性收益开始递减 。当然这表明模型本身可能已经获得了充分地反馈,形成了稳定标准 。
目前看来,这种方法也并非完全没有缺点 。在定性分析后,作者发现RLAIF生成的模型连贯性略低于RLHF,但它不太容易产生幻觉 。
目前AI发展速度的瓶颈,都有了突破的解决办法
论文的内容就这么多 。但我们可以考虑的未来却更丰富 。随着越来越多的在AI性能提升和训练领域中AI开始逐渐替代人类的角色 。在很近切的未来,我们就很可能看到计算机模型以越来越复杂和快速的方式相互建立和增强,达到远远超出孤立状态下的智能水平 。
尽管RLAIF确实需要大量的计算资源来进行自动反馈,但在初始训练后,它消除了持续的人类参与的需要 。RLAIF方法有着不言而喻的优点,即提供训练反馈的系统可以快速标记大量的经验,远远超出人类的注释范围 。
RLAIF的成功提供了一个即将到来的机器学习范式转变的一瞥,即依靠AI系统增强自身的范式已经有了充分的基础 。人工智能中的递归自我完善,自我实现在可能在一年前看还是一个长期的愿景,但现在已经越来越触手可及 。
随着人工智能的能力越来越强,进一步提高其智能水平遇到了三个核心瓶颈:数据,算力以及人工调整的效率 。
推荐阅读
- 高级分析可以帮助快速检测内部威胁
- 菠萝不削皮可以放几天
- 沐浴露可以洗头发吗 儿童沐浴露可以洗头发吗
- 微信怎么才可以已开双封 微信如何开双封?
- 鸡腿煮10分钟可以熟吗视频 鸡腿煮10分钟可以熟吗
- 玉米粉可以做什么 玉米粉可以做什么美食
- 通用机场可以客运吗雨伞能上地铁么 通用机场可以客运吗
- 保鲜冰袋可以食用吗 保鲜冰袋可以保持冷冻多久
- usb充电打火机可以带上飞机吗 火柴能带上飞机吗
- 母亲节可以送玫瑰花吗 母亲节送花怎么送
