中国统计网|机器学习路人实验!一份人人都能看懂的入门知识清单( 二 )


1.什么是人工智能(AI)
它指的是一台计算机(机器)进行编程使得自己变得合理的程序 。 啊!什么是理性的?理性是做出决定的基础 。
我提到“理性”而不是智力(如预期的那样) , 因为我们人类倾向于做出高度理性和可行的决策而不是明确的智慧 。 这是因为所有智能决策都不需要理性和可行(我的假设) 。 因此 , 使用人工智能背后的核心动机是以一种时髦的方式实现计算机(机器)的行为 , 而不是由人类指导 。
人工智能可以包括用于检查程序中的某些参数是否正常运行的程序 。 例如 , 如果参数说“X”超过某个阈值 , 机器可能会发出警报 , 而该阈值反过来可能又会影响相关过程的结果 。
2.人工智能在机器学习中的应用
机器学习是人工智能的一个子集 , 其中机器经过培训 , 可以从中学习过去的经验 。 过去的经验是通过收集的数据制定的 。 然后它结合朴素贝叶斯 , 支持向量机等算法来提供最终结果 。
3.什么是统计
在这个高水平的阶段 , 我假设你已经了解了统计学 。 如果没有的话 , 这里有一个可以让你快速了解统计学的定义 , 统计学是数学的一个分支 , 它利用数据 , 或者是整个群体的数据 , 或者从群体中抽取一个样本 , 来进行分析并给出推论 。 使用的技术统计有回归、方差、标准差、条件概率等等 。
4.在机器学习中使用统计学
让我们理解这一点 , 首先需要假设 , 我需要将收件箱中的邮件分为两类:“垃圾邮件”和“重要邮件” 。 为了识别垃圾邮件 , 我可以使用称为朴素贝叶斯的机器学习算法 , 该算法将检查过去垃圾邮件的频率 , 从而将新邮件识别为垃圾邮件 。 朴素贝叶斯使用统计技术贝叶斯定理(通常称为条件概率) 。 因此 , 我们可以说机器学习算法使用统计概念来执行机器学习 。
Ps:机器学习和统计模型之间的主要区别来自它们的发源地 。 机器学习起源于计算机科学系 , 统计建模来自数学系 。 此外 , 任何统计建模都假设许多分布 , 而机器学习算法通常不知道所有属性的分布 。
5.什么是深度学习
深度学习与机器学习算法(人工神经网络 , ANN)相关联的 , 该算法使用人脑的概念来促进任意函数的建模 。 神经网络需要大量数据 , 并且该算法在同时对多个输出进行建模时具有高度灵活性 。 神经网络是一个更复杂的主题 , 我们可以在完全独立的文章中对其进行讨论 。
6.什么是数据挖掘
在我刚开始做数据分析师的日子里 , 我总是习惯于混淆两个术语:机器学习和数据挖掘 。 但是 , 后来我了解到 , 数据挖掘处理的是搜索特定信息 。 机器学习专注于完成一项特定的任务 。 让我举一个帮助我记住差异的例子;教别人如何跳舞是机器学习 。 利用某人在城市中寻找最佳的舞蹈中心是数据挖掘 。 是不是超级简单!
但是 , 我们究竟如何教机器?教机器涉及到一个结构化过程 , 这个过程中 , 每个阶段都可以构建更好的机器版本 。 为简化起见 , 教学机器的过程可分为三个部分:
中国统计网|机器学习路人实验!一份人人都能看懂的入门知识清单
文章图片
到目前为止 , 你应该明白 , 这3个步骤确保机器的整体学习能够同等重要地执行给定的任务 。 机器的成功取决于2个因素:
抽象数据的泛化效果如何?
这台机器如何把它的学习应用到预测未来的实际应用中?
机器学习的步骤是什么?有5个基本步骤用于执行机器学习任务:
1.收集数据
无论是来自excel , access , 文本文件等的原始数据 , 这一步(收集过去的数据)构成了未来学习的基础 。 相关数据的种类 , 密度和数量越多 , 机器的学习前景就越好 。
2.准备数据
任何分析过程都会依赖于使用的数据质量如何 。 人们需要花时间确定数据质量 , 然后采取措施解决诸如缺失的数据和异常值的处理等问题 。 探索性分析可能是一种详细研究数据细微差别的方法 , 从而使数据的质量迅速提高 。


推荐阅读