人工智能7大关键技术,终于有人讲明白了( 二 )


有监督学习与在评分模型中部署的传统分析方法(如回归分析)非常相似 。 在回归分析中 , 目标是创建一个模型 , 使用一组与输出有关而且其值已知的输入变量来预测一个已知结果 。 一旦模型开发完成 , 就可以用它通过相同输入变量的已知值来预测一个未知的结果 。
例如 , 根据患者的年龄、体育活动水平、热量消耗和体重指数 , 我们可以开发回归模型来预测他患上糖尿病的可能性 。
我们针对已确诊患有糖尿病或没患糖尿病的患者建立模型(通常使用所有可用数据来建立回归模型) 。 一旦找到了合适的预测回归模型 , 就可以使用它基于一组新的数据来预测未知的结果(输入变量达到特定等级时患者患上糖尿病的可能性) 。 其后的活动(在回归分析和机器学习中)称为评分 。
回归过程与有监督的机器学习相同 , 除了:

  • 在机器学习中 , 用于开发(训练)模型的数据称为训练数据 , 而且它可以是明确出于训练目的而保留的数据子集;
  • 在机器学习中 , 通常用另一个数据子集来验证训练模型 , 该子集的预测结果是已知的;
  • 在回归中 , 可能不需要使用模型来预测未知结果 , 相反在机器学习中则会对结果做假设;
  • 机器学习中可以使用许多不同的算法类型来代替简单的回归分析 。
开发无监督模型通常更难一些 , 它要从未做标记的数据中检测模式并预测未知的结果 。
强化学习是第三种变体 , 它是指机器学习系统制订了目标而且迈向目标的每一步都会得到某种形式的奖励 。 它在玩游戏中非常有用 , 但也需要大量数据(在许多情况下 , 太多的数据对该方法不起作用) 。
需要指出的是 , 有监督的机器学习模型通常不会持续学习 。 它们从一组训练数据中学习然后继续使用同一个模型 , 除非使用新的一组训练数据来训练新的模型 。
机器学习模型是以统计为基础的 , 而且应该将其与常规分析进行对比以明确其价值增量 。 它们往往比基于人类假设和回归分析的传统“手工”分析模型更准确 , 但也更复杂和难以解释 。 相比于传统的统计分析 , 自动化机器学习模型更容易创建 , 而且能够揭示更多的数据细节 。
考虑到学习所需的数据量 , 深度学习模型在图像和语音识别等任务上非常出色(远远优于以前针对这些任务的自动化方法 , 并且在某些领域接近或超过了人类的能力) 。
人工智能7大关键技术,终于有人讲明白了
本文插图
04 自然语言处理
自20世纪50年代以来 , 理解人类语言一直是人工智能研究者的目标 。 这一领域被称为自然语言处理(Natural Language Processing , NLP) , 包括诸如语音识别、文本分析、翻译、生成的应用程序及其他与语言有关的目标 。
在“了解认知”的调查中 , 53%的公司在使用NLP 。 NLP有两种基本方法:统计NLP和语意NLP 。 统计NLP是以机器学习为基础 , 而且其性能提升的表现要快于语意NLP 。 它需要一个庞大的“语料库”或者语言体系来学习 。
例如 , 在翻译中它需要大量的翻译文本 , 而通过统计分析可以发现西班牙语和葡萄牙语中的amor在统计上与英语中的love一词高度相关 。 这虽然有点靠“蛮力” , 但通常是相当有效的方法 。
语义NLP是近十年来唯一的现实选择 , 如果能用单词、语法和概念之间的关系有效地对系统进行训练那么它就会相当高效 。
语言的训练和知识工程(通常指为特定领域所创建的知识图谱)可能会消耗大量的人力和时间 。 然而 , 它需要开发知识主体或者单词与短语之间的关系模型 。 虽然创建语义NLP模型难度很大 , 但现在有些智能座席系统已经在使用该方法 。
NLP系统的性能应该用两种方法来衡量 。 一种是看它能够理解百分之多少的口语 。 随着深度学习技术的发展 , 该指标不断提高而且往往超过95% 。


推荐阅读