指南|生成模型和判定模型的内部指南( 二 )



生成式机器学习则是通过训练学习使联合概率P(X , Y)最大化的模型参数 。 通常可以由P(Y)和P(X | Y)得到联合概率 , 当前前提是P(Y)和P(X | Y)条件独立 。
指南|生成模型和判定模型的内部指南
本文插图

图源:Markus Spiske , Unsplash
判别式模型

  • 逻辑回归
  • 随机森林
  • 支持向量机
  • 经典神经网络
  • 最近邻
生成式模型
  • 隐马尔科夫模型
  • 朴素贝叶斯
  • 贝叶斯网络
  • 混合高斯模型

指南|生成模型和判定模型的内部指南
本文插图

图源:Jon Tyson , Unsplash
为更好的理解 , 试着以下几个问题:(1 判别式;2 生成式)
  • 哪种模型需要较少的训练数据?1
  • 哪种模型能够生成数据?2
  • 什么时候使用某类模型?
  • 哪种模型对异常值更敏感?2
  • 哪种模型容易过拟合?1
  • 哪种模型训练时间短?1
  • 哪种模型直接学习条件概率?1


在不确定情况下 , 哪种模型更好?2
  • 当特征存在关联时 , 哪种模型更好?2
  • 哪种模型具有更好的可解释性?2
  • 分类问题中 , 哪种模型准确率高?1
  • 对于未标注数据使用哪种模型?2
  • 如果是标注数据哪种模型更好?1
  • 哪种模型简单 , 训练速度更快?1

  • 指南|生成模型和判定模型的内部指南
    本文插图

    图源:Photos Hobby , Unsplash
    GAN生成对抗网络(GAN)同时训练生成器和判别器 , 具体而言 , 生成器生成一批样本 , 这些样本与真实数据集一起提供给判别器进行分类 。
    指南|生成模型和判定模型的内部指南
    本文插图

    判别式分类器的缺陷
    • 它缺乏先验性 , 结构性和不确定性
    • 黑盒子 , 变量之间的关系无法观测

    指南|生成模型和判定模型的内部指南
    本文插图
    【指南|生成模型和判定模型的内部指南】

    &ltahelp_7" name="help_7"&gt
    图源:Austin Distel , Unsplash
    结论

    机器学习模型一般分为生成式和判别式两类 , 其中 , 生成式模型主要涉及建模操作 , 判别式模型一般用于分类问题 。 一般而言 , 生成式模型更具有解释力 。
    模型并不是越大越好、参数越多越好 。 更新更多参数意味着更长的训练时间、内存和计算量 。 一般而言 , 判别式模型有更好的正则性 。
    生成式模型所需的数据一般要比判别式模型更少 。
    参考文献
    · Yogatama, D., Dyer, C., Ling, W., and Blunsom, P., 2017. Generative and discriminative text classification with recurrent neural networks. arXiv preprint arXiv:1703.01898.
    · Lasserre, J.A., Bishop, C.M. and Minka, T.P., 2006, June. Principled hybrids of generative and discriminative models. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06) (Vol. 1, pp. 87–94). IEEE.
    · Wang, K., Zong, C., and Su, K.Y., 2012. Integrating generative and discriminative character-based models for Chinese word segmentation. ACM Transactions on Asian Language Information Processing (TALIP), 11(2), pp.1–41.


    推荐阅读