如图7所示,我们的方法共分为两个阶段:
(1)第一阶段:我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector一个epoch 。
(2)第二阶段:直接正常训练VPG和projector 。
三、实验结果
3.1 加速比

文章插图
表1:我们的VPGTrans的相比于从头训练在各个数据集的加速比
如表1所示,我们测试了不同迁移类型下,VPGTrans在不同数据集上的加速比 。
VPGTrans在某指定数据集A上的加速比是通过从头训练达到A上最佳效果a的轮数除以VPGTrans在A上效果超过a的最小训练轮数得到 。
比如,从头在OPT-2.7B上训练VPG,在COCO caption达到最佳效果需要10个epoch,但从OPT-125M迁移VPG到OPT-2.7B,仅需1个epoch就能达到该最佳效果 。则加速比为10/1=10倍 。
我们可以看到, 无论是在TaS还是在TaT场景下,我们的VPGTrans都可以实现稳定的加速 。
3.2 有趣的发现
我们选取了一个比较有趣的发现进行了说明,其他更多更有意思的发现请参照我们的论文 。
TaS场景下,越小的语言模型上训练的VPG,迁移起来效率越高,最后模型效果越好 。参考表1,我们可以发现OPT-1.3B到OPT-2.7B的加速比要远小于OPT-125M、OPT-350M到OPT-2.7b的加速比 。
我们尝试提供了一个解释: 一般越大的语言模型,由于其文本空间的维度更高, 会更容易损害VPG(VPG一般都是类似于CLIP的预训练模型) 本身的视觉感知能力 。我们通过类似于linear probing的方式进行了验证:

文章插图
图8:仅训练linear projector层的跨LLM大小迁移 (模拟linear probing)
如图8所示,我们进行了OPT-125M,350M,1.3B,2.7B之间的跨LLM大小的迁移 。
在实验中, 为了公平对比不同模型大小下训练过的VPG的视觉感知能力,我们固定住VPG的参数仅仅训练linear projector层 。 我们选取了COCO Caption上的SPICE指标作为视觉感知能力的衡量手段 。
不难发现,对于每一个给定的

文章插图
,几乎都符合越小,最终SPICE越高的一个现象 。
3.3 大规模实验
前文实验主要是在小规模场景下验证猜想 。为了证明我们的方法的有效性,我们模拟BLIP-2的预训练过程进行了大规模实验:
表2:真实场景下的大规模实验结果
如表2所示,我们的VPGTrans在大规模场景下依然有效 。通过OPT-2.7B到OPT-6.7B的迁移,我们仅用10.8%的数据和不到10%的训练时长达到了相似或更优的效果 。
尤其是,我们的方法在BLIP-2以FlanT5-XXL为基座的VL-LLM实现了 4.7%的训练成本控制 。
四、定制您的VL-LLMs
我们的VPGTrans可以快速为任意新的LLMs添加视觉感知模块,从而得到一个全新的高质量VL-LLM 。在本工作,我们额外训练了一个VL-LLaMA和一个VL-Vicuna 。其中VL-LLaMA的效果如下:

文章插图
表3:VL-LLaMA的效果展示
同时,我们的VL-Vicuna可以进行类GPT-4的多模态对话 。我们和MiniGPT-4进行了简单的比较:

文章插图

文章插图
五、总结
在这项工作中,我们对VPG在LLM之间的可迁移性问题进行了全面调查 。我们首先探讨了最大化迁移效率的关键因素 。
基于关键观察,我们提出了一种新颖的两阶段迁移框架,即VPGTrans 。它可以在显著降低训练成本的同时,实现相当或更好的性能 。
通过VPGTrans,我们实现了从BLIP-2 OPT 2.7B到BLIP-2 OPT 6.7B的VPG迁移 。相较于从零开始连接VPG到OPT 6.7B,VPGTrans仅需10.7%训练数据和不到10%的训练时长 。
此外,我们展示并讨论了一系列有趣发现及其背后的可能原因 。最后,我们通过训练VL-LLaMA和LL-Vicuna,展示了我们的VPGTrans在定制新的VL-LLM方面的实际价值 。
参考资料:
https://arxiv.org/abs/2305.01278
【训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型】
推荐阅读
- 赵丽颖|豪门太子丁子峻:赵丽颖背后的男人,出生不到6个月遭母亲抛弃
- 王自健|笑果事件愈演愈烈,现在才明白,王自健为何跟他们玩不到一块去了
- 对于长期坚持深蹲训练的人来说,到底有什么变化呢?
- |解决夏季肥水鱼难钓!四方面入手有效针对,走出有鱼钓不到的困境
- 徐娇|嫉妒范丞丞?任豪找不到人帮忙,陈晓和陈妍希之间的关系
- 郝劭文|李立群晒郝劭文婚礼视频,现场布置太诡异,女方被质疑身高不到150cm
- 郝劭文|郝劭文大婚看点足!重现儿时经典,现场送手机,遗憾吴孟达看不到
- 内蒙古|三甲医院招不到人,医学生说却求职无门,是什么让大学生舍弃编制
- 医学生|三甲医院招不到人,医学生却说求职无门,医学领域迎来发展尴尬期
- 纽约|纽约政府部门上千个职位空缺招不到人,市长街头发招聘传单
