NLP实战:利用Python理解、分析和生成文本 | 赠书( 三 )
正是Word2vec这种无监督的特性使它无比强大 , 因为世界上充满了未标记、未分类、非结构化的自然语言文本 。
4.Word2vec和GloVe
Word2vec是一个巨大的突破 , 但它依赖于必须经反向传播来训练的神经网络模型 。 反向传播在效率上通常不如使用梯度下降法直接优化的代价函数 。 由Jeffrey Pennington领导的斯坦福大学NLP研究团队研究了Word2vec的工作原理 , 并从中找到可优化的代价函数 。 他们计算词的共现次数并记录在一个正方形矩阵中 。 他们发现可以对这个共现矩阵进行奇异值分解 , 分解得到的两个权重矩阵的意义与Word2vec产生的完全相同 。 关键点在于用同样的方法对共现矩阵进行归一化 。 在某些情况下 , Word2vec模型无法收敛 , 而斯坦福大学的研究人员能够通过他们提出的SVD方法得到全局最优解 。 这个方法是对词共现的全局向量(在整个语料库中的共现)直接进行优化 , 因此命名为GloVe(global vectors of word co-occurrences) 。
GloVe可以产生相当于Word2vec输入权重矩阵和输出权重矩阵的矩阵 , 其生成的语言模型具有与Word2vec相同的精确率 , 而且花费的时间更少 。 GloVe通过更高效地使用数据来加速训练进程 。 它可以在较小的语料库进行训练 , 并仍然能够收敛 。 SVD算法已经改进了几十年 , 所以GloVe在调试和算法优化方面很有优势 。 相比之下 , Word2vec依赖反向传播来更新表示词嵌入的权重 , 而神经网络的反向传播效率低于GloVe使用的SVD这种更成熟的优化算法 。
尽管Word2vec首先普及了基于词向量进行语义推理的概念 , 不过大家还是应当尽量使用GloVe来训练新的词向量模型 。 通过GloVe , 大家更有可能找到词向量表示的全局最优解 , 从而得到更精确的结果 。
GloVe的优点如下:
1.训练过程更快;
2.更有效地利用CPU、内存(可以处理更大规模的文档);
3.更有效地利用数据(对小型语料库有帮助);
4.在相同训练次数的情况下精确率更高 。
5.知识方法
A.L.I.C.E.和其他AIML聊天机器人完全依赖模式匹配 。 在构想AIML之前 , 第一个流行的聊天机器人ELIZA也使用了模式匹配和模板 。 但是这些聊天机器人的开发人员在模式和模板中硬编码了回复的逻辑 。 硬编码不能很好地“扩展” , 这种扩展不是从处理性能而是从人力的角度来说的 。 以这种方式构建的聊天机器人的复杂性随着投入人力的增加呈线性增长 。 事实上 , 随着这个聊天机器人的复杂性不断增长 , 我们开始看到自己努力的回报却在递减 , 这是因为随着“活动组件”之间交互的增加 , 聊天机器人的行为变得越来越难以预测和调试 。
如今 , 数据驱动编程是应对大多数复杂编程挑战的现代方法 。 如何使用数据对聊天机器人进行编程?在上一章中 , 我们学习了如何使用信息提取从自然语言文本(非结构化数据)中创建结构化知识 。 仅仅基于读入文本 , 就可以构建关系或事实组成的网络 , 这些文本可以是维基百科文章 , 甚至是大家自己的个人日志 。
通过逻辑推理来处理知识图谱 , 可以回答包含在知识库中的世界相关的问题 。 然后可以使用推理答案填写模板化回复中的变量 , 从而创建自然语言答案 。 问答系统 , 例如IBM在Jeopardy获胜的“沃森”(Watson) , 最初也是以这种方式构建的 , 尽管最近的版本几乎必然也采用了搜索或信息检索技术 。 知识图谱可以说是将聊天机器人带到现实世界的“根本” 。
基于知识库的方法不仅限于回答关于世界的问题 。 知识库也可以使用正在进行的与对话相关的事实进行实时填充 。 这可以让聊天机器人快速了解对话目标以及他们的喜好 。
6.检索(搜索)方法
另一种“倾听”用户的数据驱动方法是在历史对话日志中搜索之前的语句 。 这类似于人类倾听者尝试回想之前他们在哪里听到过该问题、句子或词 。 机器人不仅可以搜索自己的对话日志 , 还可以搜索任何人与人之间的对话记录、机器人和人之间的对话记录 , 甚至是机器人和机器人之间的对话记录 。 但和以往一样 , 脏数据进脏数据出 。 因此 , 我们应该清理并整合历史对话的数据库 , 以确保机器人搜索(并模仿)高质量的对话 。 我们希望人类享受与机器人之间的对话 。
推荐阅读
- 租车|男子利用漏洞偷开租赁汽车 还拉客赚钱!结果栽了
- 杀毒软件|杀软诺顿360被批:未经同意就利用用户电脑挖矿
- 胎儿|华大基因CEO:利用受精卵基因编辑 可实现胎儿天下无残
- 苹果|苹果又爆漏洞:可利用HomeKit让iPhone瘫痪
- 商标|上海万翠堂撤回全部青花椒诉讼 董事长致歉:绝非想利用商标赚钱
- 腾讯|利用AI+大数据!钟南山团队联合腾讯发布最新疫情研究成果
- 卡车|河南水灾投车堵决口卡车即将被挖出:车主希望再利用
- 网站|英国交通部网站出现不雅内容 官方回应:废弃页面被利用
- 利用系统漏洞套取话费 技术骨干成公司硕鼠
- 虚幻引擎|厂商利用虚幻5引擎超高精度实时还原人脸表情:细节动作堪比真人!
