表情|想不到,那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手( 二 )
破坏数据的目的是让模型从现有的字幕中学习 meme 生成,并在推断过程中将基于给定输入语句生成 meme 的过程进行泛化。
meme 字幕生成器模型使用了 transformer 架构,通过对选定的 meme 模版和输入语句执行多头缩放点积注意力,来创建给定输入语句的 meme 嵌入。
transformer 解码器首先对预期的字幕执行 masked multi-head attention,然后在编码的 meme 嵌入和 masked multi-head attention 的输出之间执行多头缩放点积注意力(如图 3 所示)。这使得 meme 字幕生成器能够学习输入语句、所选 meme 模版和预期 meme 字幕之间的依赖关系。
此外,该研究还使用公式
来优化 transformer。
其中θ_2 表示 meme 字幕生成器的参数,C 表示 meme 字幕,M 是基于 transformer 编码器获得的 meme 嵌入。
数据集
模型训练所用数据有两个来源,一个是全球最大的 meme 图片生成网站「imgflip」,另一个就是众所周知的 meme 图片集合地「推特」。为了爬取更多的数据,研究者开发了一款网络爬虫工具,尽可能多地收集 meme 图。
该研究最终创建的数据集包含源自 24 个「经典沙雕梗」的 177942 个 meme 字幕。表 1 展示了数据样本的组成部分,附录 A 展示了训练所用的「经典源图」,图 4 为 meme 字幕主题的分布情况。
文章图片
表 1:meme 字幕数据集中的样本示例,包括模版名称(Template name)、字幕(Caption)、meme 图(Meme Image)三部分。
文章图片
附录 A:实验所用 meme 字幕数据集中的的模版和图像。
文章图片
图 4。
此外,研究者收集了推特平台的推文,用以评估 memeBot 在线上社交互动中通过语句生成 meme 的效力。
研究者在关键词「Coronavirus」查询结果中随机抽取 6000 条推文,从中选择了 1000 条非负面情绪的推文。目的是通过输入推文让模型生成 meme 图,并评估生成结果是否与推文内容相关。
memeBot 效果如何
该研究在训练、验证和测试阶段的数据集分别包括 142341、17802 和 17799 个样本,评估内容包括模版选择模块在选择兼容模版时的性能、字幕生成器的生成效力等。
首先,研究者对 BERT、XLNet 和 Roberta 几种预训练语言表征模型进行了微调,并在 meme 字幕测试数据集上测试了模型的 meme 模版选择性能,结果如表 2 所示。
文章图片
表 2:加粗部分为最佳分数,精确度和 F1 两项指标是越高越好,损失则越低越好。研究者使用了性能表现最佳的 Roberta_base 模型作为 meme 生成 pipeline 中的模版选择模块。
然后,在字幕生成任务中,研究者使用了两个变体「MT2MC」和「SMT2MC」(SMT2MC 也有两个变体),分别代表「基于模版生成字幕」和「基于输入语句及模版生成字幕」。下图是字幕生成器的变体所生成的 meme 示例。
文章图片
可以看出,MT2MC 根据给定的 meme 模版随机生成字幕,与输入语句无关联,SMT2MC 变体生成的 meme 字幕则与输入语句有语境关联。在 SMT2MC 的变体中,以名词短语和动词短语作为输入生成的字幕能够更好地还原输入语句的本意。
在评估时,研究者使用了 BLEU 分数来评估生成字幕的质量。鉴于 meme 生成没有固定的指标,研究者还引入了一组评估人员进行「主观评价」,评估的维度包括图片与字幕的连贯性和相关性等等,分数在 1-4 分不等。
文章图片
BLEU 值以及人类评估得分情况。
文章图片
相关性与连贯性分数的定性比较。
研究者还设计了一个实验,来评估 meme 生成结果在线上社交环境中的效力:
文章图片
表 5:推特数据中的人类评估分数。相关性和一致性指标满分为 4 分,「User Likes」一项代表喜欢该生成结果的人数占总体的百分比。
文章图片
图 9:SMT2MC-NP+V 变体生成的 meme 结果。
最后,研究者也提到,meme 的生成效果评价因人而异,很难通过预定义的指标进行评估。接下来他们会将继续拓展这一方面的研究,比如将 meme 引入社交媒体流,并根据 meme 在人群中的传播对其进行评估。meme 传播率和传播人群可用于强化训练,生成更高质量和更具创意的 meme。
--END--
【 表情|想不到,那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手】往日热文:
推荐阅读
- 希林娜|陈卓璇抢希林娜依·高台词时,谁注意学员们表情比宫斗戏还精彩
- 现状|黄晓明赵丽颖言语互斗,无意间提到杨颖,黄晓明表情透露感情现状
- 节目中|黄晓明直言喜欢冯绍峰,我唯独注意身旁赵丽颖表情,这波糖好甜
- 表情|赵丽颖与黄晓明互怼,却因冯绍峰败下阵来,表情暴露了一切
- 今日事|赵丽颖与黄晓明互怼,却因冯绍峰败下阵来,表情暴露了一切
- 嘉宾|新手驾到:嘉宾首次科目二模拟考,把车撞坏,吴宣仪表情凝重
- 出奇制胜|王嘉尔脑回路清奇,划拳游戏出奇制胜,王一博表情管理失控
- 赵丽颖|黄晓明怼赵丽颖:我喜欢冯绍峰跟你没关系!颖宝转过头,表情好甜
- 张雨|孟佳观众喜爱排名第一, 镜头扫过张雨绮, 看清表情, 笑到肚子抽筋
- 说好的六点见|一期和二期生快要毕业 | 盘点SNH48那些出色的后起之秀
