Transformer能解释一切吗?( 三 )


“刺激—反应”
杨立昆与这条区别于GPT的AGI未来猜想路径,更强调智能体主动发起的与物理世界之间的实时关系,这是强化学习擅长的事 。在这一点上,Transformer的继承者RetNet也只是治标不治本 。
OpenAI在ChatGPT中以人类反馈强化学习(RLHF)的微调方法补充了这种实时反馈的能力 。但大语言模型的所有“常识”——也就是其智能所在——都来自一次次隆重的预训练,即在知道最优数据分布时,依靠巨大的模型、算力以及数据去拟合分布 。这是Transformer与GPU在并行计算能力上的契合所带来的便利,而作为Transformer继任者的RetNet,只是在极力优化这整个后续的计算过程 。
而强化学习与有监督学习、无监督学习都不一样 。它本身并不知道最优分布,而是通过奖励信号的反馈机制不停的寻找相对的“最优” 。这种在与环境交互中主动“试错”,并且获取正反馈(收益),进而从自身经验中进一步理解环境的方式,相比自监督学习来说更加接近人类对于物理世界的理解方式,这就像心理学中的“刺激—反应”理论 。

Transformer能解释一切吗?

文章插图
图源:www.echenshe.com
很多人对强化学习的第一次感性认识都来自曾颠覆了人类围棋世界的AlphaGO,而到目前为止 。全世界可能也没有另一家公司比AlphaGO背后的公司DeepMind更懂强化学习 。
与RetNet在Transformer的基础上做调整不同,DeepMind在6月末提出了另一种大模型的迭代思路——AlphaGo+GPT4 。
AlphaGo和AlphaZero
人类一败涂地的故事总是瞩目,但AlphaGO曾有一个后辈AlphaGo Zero 。
2016年,AlphaGO用树搜索和上万张棋局的预先学习,4:1击败了李世乭 。但另一个延续下去的故事是,AlphaGo Zero在一年后以100:0的战绩击溃了AlphaGO 。
2017年《自然》上的一篇论文介绍了这项壮举,核心的内容是AlphaGo Zero如何在完全没有先验知识,即不依赖任何人类数据、指导或领域知识的前提下,通过自我学习来获得超越人类水平的专业领域能力 。
换言之,AlphaGo Zero就好像带着一个空脑袋,坐在一间屋子里,在只掌握围棋游戏规则信息,眼前只有一副围棋棋盘和棋子的情况下,击败了AlphaGO 。
AlphaGo Zero的不同之处在于它采用了一种完全基于强化学习的算法,仅仅将自己作为老师,以此诞生出更高质量的走法选择 。与使用人类专家数据进行训练相比,纯粹的强化学习方法只需要多训练几个小时,但渐近性能(算法在接近其理论极限时的性能)要好得多 。
AlphaGo Zero的胜利是强化学习的胜利 。但它的局限性也很明显,就像杨立昆所推崇的能量模型(Energy-based Models)所具有的问题一样,“采样速度太慢了”,一位强化学习领域的研究者表示 。
Gemini
现在这条更侧重强化学习的AGI路径,压在了DeepMind正在研究的一个新的名为Gemini的大模型身上 。DeepMind CEO 哈萨比斯表示,对Gemini的研发投入将会超过数千万甚至数亿美金 。做个对比,OpenAI用1个亿美金迭代出了GPT-4 。
Transformer能解释一切吗?

文章插图
图源:Business Today
“Gemini”本身是双子座的意思 。在哈萨比斯的表述中,这个全新的大模型将会是GPT4和AlphaGo的结合体,它仍然是一个大语言模型,但AlphaGo所具备的强化学习和树搜索能力会给Gemini带来更强的决策和规划能力——这个杨立昆认为GPT在AGI道路上早晚会遇到的阿喀琉斯之踵 。
Gemini背后的谷歌显然希望能借着Gemini重新在与微软的争锋中占到一个好的位置 。在ChatGPT问世之后,谷歌快速站到了OpenAI的对手Anthropic的背后 。如果这被看作一种防守姿态的话,Gemini则更像谷歌主动发起的一场新的路线之争,就像曾经在GPT与BERT身上发生过的事情一样 。
但无论如何,RetNet或是Gemini,改革或是淘汰Transformer的狂妄本身,已经包含了对这个伟大框架的所有敬意 。

【Transformer能解释一切吗?】


推荐阅读