技术编程|产品经理视角下的自然语言处理( 二 )
文章图片
文章图片
由于业务属性的特殊性 , 客服性质的外呼业务对监管和用户投诉格外关注 , B端客户对应答话术的要求及意图识别的准确率要求较高 。
所以除了使用语料来训练模型 , 基本上还会使用正则表达式和关键字的策略进行意图匹配的辅助 。
三、自然语言理解
NLP(自然语言处理)被誉为人工智能的掌上明珠 , 究其原因“交流”在人类社会演进中起到了最重要的作用 。
作为“交流”最重要的途径和方式之一 , 语言伴随着人类社会的发展 , 历久弥新 , 形成了博大精深、非常复杂的体系 。
不同的职业领域、不同的历史时期、也就是我们常说的“自然语言” , 就像平常妈妈和你说话一样 , 不需要完整的语法、不需要主谓宾定状补的限定 , 拟人比喻倒装夸张对偶各种修辞一起来 。
让孔子来理解我们今天的“语言”他其实也不知道我们在表达什么意思 , 更何况是机器人呢 。
和妈妈交互的场景 , 在机器人眼里以下对话可能是这个样子的:妈:“把你那猪窝收拾收拾 , 和你爹一个熊样”!机器人的理解:你和你爸都是熊 , 你俩长得很像 。你养了一只猪 , 猪窝太乱你需要整理下 。
如果没有具体的对话场景 , 而且对于一个没有感情的机器 , 很难让他理解我们人类日常生活中的语言 。
但是 , 我们可以教他 , 就像儿童成长过程一样:你妈第一次骂你“和你爹一个熊样”你也不知道是什么意思 , 但是骂的多了加上她骂人时的表情、语气、情绪等你就知道了“和你爹一个熊样”实际上是在骂你 。
四、理解和优化过程
文章图片
文章图片
1. 训练模型
如上图“不想上班“标签的训练集的语料内容 , 都是表明作者不想上班的意思 , 并把其中的80%语料作为训练集扔给模型 , 让其去学习(可以抽象成将复杂的非向量化的文本内容归一化为可以计算的数学模型 , 之后再转换为机器可以理解的0和1 , 具体的实现过程作者也了解过 , 其中涉及到很多的数学内容 , 较为复杂感兴趣的同学可自行学习) 。
最终 , 机器可以明白了其中的大部分意思 。
2. 测试模型
不能机器说学会了 , 我们就认为它学会了 , 还要使用测试集对它进行“考试” , 使用上述语料中剩余的20%作为测试集进行测试 , 得到模型的“识别率” 。
识别率和“训练集”和“测试集”中的语料内容很大的关系 , 需要合理的进行分配 。
否则结果会出现“过拟合”(考的恰好都是我会的 , 不会的都没考 , 成绩很高)和“欠拟合”(考的都不会 , 成绩很低)的现象 。
最终考试成绩好 , 皆大欢喜;考试成绩不好 , 回家优化 。
3. 模型结果优化
1)停用词
“停用词”指在一句话中没有实际意义 , 即使去掉对句子的整体理解(句式除外)也不会造成影响的词 。
如啊、哦、吧这种语气词或是出于具体的业务考量可以忽略的词语 , 在语料预处理阶段会将这些词语忽略掉以增加语料的“纯粹性” 。
2)添加语料
模型识别的基础是语料 , 尽可能多的添加优质的语料 , 保证模型在更好的“教育环境“下学习 , 通常在业务前期的语料积累阶段 , 添加语料是提高准确率最直接的方法 。
理想的场景是在模型训练之前将完整的语料库准备好 , 以供第一次就可以训练好 , 但是语料的收集和整理也是耗时耗力且枯燥的工作 , 需要大量人工的投入 。
3)模型参数调节
参数(超参数)不仅仅包括一些数字的调整 , 也包括了相关的网络结构的调整和一些函数的调整(前面的停用词也可以理解为预处理阶段的一种参数) , 如对学习率、正则化方法、初始化权值的调整 。
推荐阅读
- 摄像头|小米截胡中兴屏下摄像头技术,小米研发还是供应链技术?
- 马斯克|马斯克用活猪演示脑机接口技术:实时读取猪脑信息 心灵感应成真了
- 三防|带你了解三防手持终端的秘密
- 第三|原创 小米发布第三代屏下相机技术,或将在Mix 4上首秀?
- 海信|首个新兴显示技术分标委成立 海信牵头制定国标
- 广告位|商业化产品经理 | 在线广告(7): 设计一个广告位要考虑什么
- 中年|Python编程语言有什么独特的优势呢?
- |马斯克用活猪演示脑机技术,他希望今年年底前能在人体内植入
- 互联网的放大镜|小米截胡中兴屏下摄像头技术,小米研发还是供应链技术?
- 新机发布|原创 小米发布第三代屏下相机技术,或将在Mix 4上首秀?
