
文章插图
图源:《Retentive Network: A Successor to Transformer for Large Language Models》
Throughput(神经网络的吞吐量)是一个算法模型在单位时间内(例如,1s)可以处理的最大输入的训练样本数据 。RetNet在输入端token数增加的情况下仍然能够维持高吞吐量,而Transformer在这方面的数据则随着token数的增加而逐渐衰减 。

文章插图
图源:《Retentive Network: A Successor to Transformer for Large Language Models》
Perplexity(困惑度)是语言模型最鲜明的评价标准 。它衡量语言模型对单词序列中下一个单词的预测能力 。当模型参数量变大时,困惑度往往会降低,即语言模型能够做出更优的预测——这也是为什么我们对万亿参数模型抱有极大期待 。
论文中比较了RetNet与Transformer在1.3B、2.7B以及6.7B这三种不同尺寸上的困惑度变化,实验结果RetNet的困惑度下降更快,并且当模型大小超过2B时,RetNet的表现开始优于Transformer 。
这一观察结果意义重大,它表明RetNet更适合需要大量计算资源和内存的大型语言模型 。

文章插图
图源:《Retentive Network: A Successor to Transformer for Large Language Models》
2018年,大模型仍然前景未明的时候,黄仁勋在深度学习的综合性能评价方面提出了PLASTER框架 。这是七个测量维度的缩写,其中延迟(Latency)的重要性仅仅被放在可编程性(Programmability)之后(其他五个维度分别是准确率(A)、模型大小(S)、吞吐量(T)、能效(E)以及学习率(R)) 。
RetNet与Transformer在不同Batch Size(一次训练所选取的样本数)下的延迟表现同样印证了,RetNet的响应速度将在训练规模进一步扩大后展现出优势 。
Transformer能解释一切吗
这篇论文中的几位核心作者,在更早时候就已经开始关注GPT在上下文学习中的运行机制 。2022年末ChatGPT问世后不久,他们发表了一篇表明Transformer注意力具有双重形式的梯度下降的论文 。而这些研究者对于RetNet的野心并不会停留在文本输入上 。
论文在最后表示,RetNet将会成为未来训练多模态大语言模型的核心角色 。
在这篇论文发表的10天之前,世界人工智能大会上一家投资了智谱AI等多个大模型明星团队的创投公司表示,Transformer在短期内会是多模态的主流网络结构,但并不是人工智能技术的重点,“压缩整个数字世界的通用方法仍未出现” 。
Transformer是目前几乎所有主流大模型的基石,这场基于Transformer而起的技术革命,已经快速到达了一个新的摇摆点 。外部的压力来自暴涨的算力资源需求,以及人类所有的高质量语料可能在有限的期限内枯竭 。

文章插图
图源:推特
摇摆的地方在于,到底是Transformer还不够好,还是Transformer本身并不是一条正确道路?
至少从RetNet的角度,它仍然是相信Transformer的,RetNet是后者的颠覆版本,但并没有跳出以深度学习为基础,全神贯注在自然语言处理任务上做突破的逻辑框架 。
另一种更剧烈的反对声音则直接站在了Transformer的对面,比如再度活跃起来的“卷积神经网络之父”杨立昆 。
模型和数据,谁更重要
在几个月前的一次公开演讲中,杨立昆再次批评了GPT大模型 。他认为根据概率生成自回归的大模型,根本无法破除幻觉难题 。甚至直接断言GPT模型活不过5年 。
LeCun的质疑是,基于文本训练的大型语言模型只能理解极片面的真实世界知识,而仅仅靠自回归预测下一个token的单一方式所形成的“智能”缺乏物理直觉 。这样的模型能够在真实世界中对物理直觉问题做出对的回答——也可能做出错的回答 。因为回答的依据来自将整个真实世界压缩成文本进行训练后所形成的逻辑关系,但这并不是直接面对物理世界本身 。
并且由于这样的预测方式本质上缺乏时间尺度,这样的模型也就缺乏真正意义上的规划和决策能力 。
矛头在根本上对准Transformer 。
言下之意,Transformer统领了一种以预训练规模兑换智能涌现能力——所谓大力出奇迹——的发展道路(并且到目前为止取得了瞩目的成果),但如果真的有一条通往AGI的道路,到底是该以数据驱动模型,还是模型驱动数据?这仍是一个悬而未决的问题 。
推荐阅读
- 归于平静看淡一切释然的网名心就不累了 有诗意伤感网名大全
- 看淡一切的稳重成熟网名男人味足 成熟看透的网名
- 首个线性注意力Transformer大模型:1750亿参数,速度、精度更优
- 三毛:夜深花睡
- 时间冲淡一切优美句子 时间能治愈一切的经典名句
- 金星:前妻貌美如花,离婚时还怀着孕,感谢丈夫10年包容我的一切
- 不完美受害人:一切都是赵寻自导自演!辛路是帮凶,成功洗白出狱
- 大S被曝公开承认一切,Makiyo宣布离婚:七仙女如今差距有多大
- SHE三人学历差距超大,20年后不同境遇证明学历不代表一切!
- 谈崩了!美国演员工会宣布罢工 成员一切工作暂停
