『自然语言处理』基于Seq2Seq与Bi-LSTM的中文文本自动校对模型( 三 )
本文插图
图7中 , St-1代表解码端前一轮的隐层状态 , 即代表了校对“机器上一个词”阶段的输出隐层状态;a1~a4分别代表了编码端每个词输入到Bi-RNN后的隐层状态 。 Attention根据每个Encoder输出和Decoder的上一次隐层给出每个边的得分 , 然后和上一次训练的预测值拼合到一起 , 和Decoder端上一时刻的隐层作为输入进入当前时刻的RNN 。
2.2.3 模型的训练与优化
在完成了模型的构建后 , 还需要构造解码端的训练与预测函数 , 并将训练与预测分开 。 因为解码器会将前一时刻的输出作为当前时刻的输入 , 如果前一时刻的输入不够准确 , 那么就会影响后续的预测 。 所以在训练过程中 , 需要知道每一个输入到网络中的句子的正确形式 , 进而采用强制正确输入来进行训练 , 这种方式叫做Teacher Forcing , 如图8所示 。
本文插图
前面已经介绍过解码端某一时刻的概率分布 , 所以对于全部的训练样本 , 需要做的就是在整个训练样本下 , 所有样本的P(y1 , … , yT|x1 , … , xT)概率之和最大 , 最大化条件似然函数 , 得到最佳的校对结果 。 模型使用grid search设计 , 以便找到最佳架构和超参数值 。
3 结果与分析
实验使用阿里云服务器GN2作为训练服务器 , 使用TensorFlow框架 , 共进行了4组实验 , 分别用来测试Seq2Seq、BiRNNSeq2Seq、带注意力机制的Seq2Seq以及与这两者结合在一起的4种模型在中文文本校对中的性能 。 实验所使用的数据集来源于2018 NLPCC共享的训练数据Task 2以及一部分搜狗实验室提供的开源中文语料库 , 全部的数据集包含了1 327 608个句子对 , 分别用Src和Trg表示 , Src代表原句 , 既可能为正确的句子也可能为包含用词错误的句子;Trg表示目标输出 , 其均为对应Src的正确句子 , 其中不包含验证集 。 将全部数据集按比例(99.5:0.5)随机分成两部分:一个验证集 , 其中包含5 310个句子对 , 源句与目标句子之间存在不一致;另一个训练集包含所有剩余的1 322 298个句子对 。 测试数据包含2 000个句子对 。 数据集的统计数据如表1所示 。
本文插图
表1展示了训练验证和测试数据的统计 。 .Src是指源错误的句子 , .Trg是指目标正确的句子 。
为了合理客观地评价模型 , 实验采用广泛使用的MaxMatch Scorer工具包进行评估 。 中文文本校对实验结果如表2所示 , 其中F0.5、F1、BLEU为评价分数 。
本文插图
实验结果表明 , Bi-RNN以及注意力机制均有助于提升中文文本校对模型的性能 , 并且二者结合起来可以进一步改善系统的性能 。 由于模型的实验结果受数据量以及迭代次数的影响 , 因此在此基础上引入更多的数据做训练 , 并且通过改善训练方法 , 如引入流畅度学习、推断机制等进一步提升模型校对的准确率 。
4 结论
本文给出了基于Seq2Seq和Bi-LSTM设计的中文文本校对模型并且通过公开的数据集全面验证了模型的性能 。 模型的核心内容是在引入Bi-LSTM单元和注意力机制的同时 , 用Seq2Seq结构网络对中文语料库进行学习 , 挖掘词与词之间的关系 , 并以此作为中文文本校对的依据 。 虽然由于训练量的原因 , 在结果上并未达到最好的效果 , 但是可以看出该模型在中文文本校对领域里具备了很大的潜力 , 并可以扩展应用在多个中文自然语言处理领域 。
参考文献
[1] CHO K , MERRIENBOER B , GULCEHRE C.Learning phrase representations using RNN encoder–decoder for statistical machine translation[J].Computer Science , 2014(v1):52-55.
推荐阅读
- IT之家▲10的LineageOS 17.1正式发布!,基于Android
- 2020@2020 iPhone SE终于来了?A13处理器+三种配色
- 高通865处理器PK麒麟990处理器 集成5G才是王道
- 「预计 3 分钟读完」助力构建基于AI的服务生态体系,第四范式完成2.3亿美元C+轮融资
- 『民福康养生谈』吞馒头等土方法,一个也不能用!教你正确的处理方法,被鱼刺卡喉
- [美股研究社]与ADM的战火点燃?,英特尔发布十代酷睿标压处理器
- 电热汇■电热汇分享电磁加热器故障处理及电路图
- [硬顶科技]潮夜绿色彩,十代酷睿处理器加持,颜值笔记本又推新款
- 「退休花大伯」如何处理花草盆栽的虫害问题?一对一解决小黑飞、蚜虫、红蜘蛛
- 『镁客网TB』目标游戏玩家和内容创作者,英特尔推出第十代酷睿移动处理器
