[算法]收藏!机器学习算法优缺点综述( 三 )

缺点:

  • 非常难以训练
  • 很难解释
降维算法(Dimensionality Reduction Algorithms)
[算法]收藏!机器学习算法优缺点综述
本文插图

和集簇方法类似 , 降维追求并利用数据的内在结构 , 目的在于使用较少的信息总结或描述数据 。
这一算法可用于可视化高维数据或简化接下来可用于监督学习中的数据 。 许多这样的方法可针对分类和回归的使用进行调整 。
例子:
  • 主成分分析(Principal Component Analysis (PCA))
  • 主成分回归(Principal Component Regression (PCR))
  • 偏最小二乘回归(Partial Least Squares Regression (PLSR))
  • Sammon 映射(Sammon Mapping)
  • 多维尺度变换(Multidimensional Scaling (MDS))
  • 投影寻踪(Projection Pursuit)
  • 线性判别分析(Linear Discriminant Analysis (LDA))
  • 混合判别分析(Mixture Discriminant Analysis (MDA))
  • 二次判别分析(Quadratic Discriminant Analysis (QDA))
  • 灵活判别分析(Flexible Discriminant Analysis (FDA))
优点:
  • 可处理大规模数据集
  • 无需在数据上进行假设
缺点:
  • 难以搞定非线性数据
  • 难以理解结果的意义
聚类算法(Clustering Algorithms)
[算法]收藏!机器学习算法优缺点综述
本文插图

聚类算法是指对一组目标进行分类 , 属于同一组(亦即一个类 , cluster)的目标被划分在一组中 , 与其他组目标相比 , 同一组目标更加彼此相似(在某种意义上) 。
例子:
  • K-均值(k-Means)
  • k-Medians 算法
  • Expectation Maximi 封层 ation (EM)
  • 最大期望算法(EM)
  • 分层集群(Hierarchical Clstering)
优点:
  • 让数据变得有意义
缺点:
  • 结果难以解读 , 针对不寻常的数据组 , 结果可能无用 。
基于实例的算法(Instance-based Algorithms)
[算法]收藏!机器学习算法优缺点综述
本文插图

基于实例的算法(有时也称为基于记忆的学习)是这样学 习算法 , 不是明确归纳 , 而是将新的问题例子与训练过程中见过的例子进行对比 , 这些见过的例子就在存储器中 。
之所以叫基于实例的算法是因为它直接从训练实例中建构出假设 。 这意味这 , 假设的复杂度能随着数据的增长而变化:最糟的情况是 , 假设是一个训练项目列表 , 分类一个单独新实例计算复杂度为 O(n)
例子:
  • K 最近邻(k-Nearest Neighbor (kNN))
  • 学习向量量化(Learning Vector Quantization (LVQ))
  • 自组织映射(Self-Organizing Map (SOM))
  • 局部加权学习(Locally Weighted Learning (LWL))
优点:
  • 算法简单、结果易于解读
缺点:
  • 内存使用非常高
  • 计算成本高
  • 不可能用于高维特征空间
贝叶斯算法(Bayesian Algorithms)
[算法]收藏!机器学习算法优缺点综述
本文插图

贝叶斯方法是指明确应用了贝叶斯定理来解决如分类和回归等问题的方法 。
例子: