H好菇凉666用万字长文聊一聊 Embedding 技术( 六 )
许多重要的下游任务譬如QA、NLI需要语言模型理解两个句子之间的关系 , 而传统的语言模型在训练的过程没有考虑句对关系的学习 。 BERT采用NSP任务来增强模型对句子关系的理解 , 即给出两个句子A、B , 模型预测B是否是A的下一句 , 如下图所示:
本文插图
训练数据集构造上 , 从平行语料中随机抽取连续的两句话:50%保留抽取的两句话(label=IsNext);50%的第二句话随机从语料中抽取(label=NotNext)
在https://github.com/google-research/bert.git中有N多种预训练模型 , 大家可以根据需要下载对应的模型 , 下面主要给出两个常用的模型:
- BERT-Base_L-12_H-768_A-12 , 总参数为110M
- BERT-Large_L-24_H-1024_A-16 , 总参数为340M
BERT提供了4中不同的下游任务的微调方案 , 大家根据自己的语料在预训练好的模型上采用这些任务来微调模型:
- 句对关系判断:第一个起始符号经过编码后 , 增加Softmax层 , 即可用于分类;
- 单句分类任务:实现同“句对关系判断”;
- 问答类任务:问答系统输入文本序列的question和包含answer的段落 , 并在序列中标记answer , 让BERT模型学习标记answer开始和结束的向量来训练模型;
- 序列标准任务:识别系统输入标记好实体类别(人、组织、位置、其他无名实体)文本序列进行微调训练 , 识别实体类别时 , 将序列的每个Token向量送到预测NER标签的分类层进行识别 。
基于内容的Embedding方法(如word2vec、BERT等)都是针对“序列”样本(如句子、用户行为序列)设计的 , 但在互联网场景下 , 数据对象之间更多呈现出图结构 , 如1)有用户行为数据生成的物品关系图;2)有属性和实体组成的只是图谱 。
本文插图
对于图结构数据 , 基于内容的embedding方法不太好直接处理了 。 因此 , 为了解决土结构数据的问题 , Graph Embedding开始得到大家的重视 , 并在推荐系统领域流行起来 。
Graph Embedding是一种将图结构数据映射为低微稠密向量的过程 , 从而捕捉到图的拓扑结构、顶点与顶点的关系、以及其他的信息 。 目前 , Graph Embedding方法大致可以分为两大类:1)浅层图模型;2)深度图模型 。
1、浅层图模型 浅层图模型主要是采用random-walk + skip-gram模式的embedding方法 。 主要是通过在图中采用随机游走策略来生成多条节点列表 , 然后将每个列表相当于含有多个单词(图中的节点)的句子 , 再用skip-gram模型来训练每个节点的向量 。 这些方法主要包括DeepWalk、Node2vec、Metapath2vec等 。
A) DeepWalk DeepWalk是第一个将NLP中的思想用在Graph Embedding上的算法 , 输入是一张图 , 输出是网络中节点的向量表示 , 使得图中两个点共有的邻居节点(或者高阶邻近点)越多 , 则对应的两个向量之间的距离就越近 。
推荐阅读
- 京东|京东天猫年货节薅羊毛!9999元/6666元红包速领
- 天猫|最高6666元 可当现金用!天猫超级红包7日20点开抢
- 蔚来ET7|对标宝马5系 蔚来ET7最新售价公布:43.666万起售
- 爱去酒吧是不是“好女孩”?厦大女学者万字长文分析引热议
- 小鹏汽车|Q3交付25666台 夺得造车新势力季度销量冠军!小鹏发2021年最新财报
- 手机号“1**66666666”,287万起拍!
- 六安一“6666”手机号拍出3.18万元!背后的故事让人拍手称快!
- 陈天桥|Intel公布12代酷睿兼容DDR5内存:16GB套装、最高6666MHz
- 嫌作者写的太烂!黑客盗号改小说大纲,还码了两万字新剧情……网友:手把手教学
- 论文|男子写3万字论文证明家乡是“华夏第一县” 被专家认可
