指南|生成模型和判定模型的内部指南
本文插图
字幕组双语原文:生成模型和判定模型的内部指南
英语原文:The Insiders’ Guide to Generative and Discriminative Machine Learning Models
翻译:AI研习社(季一帆)
本文插图
图源:Photos Hobby , Unsplash
在本文中 , 我们将讨论生成模型和判别模型之间的差异、形成原因及相关内容 。
判别式机器学习在可能的输出选择中确定输出 。 该过程根据给定的数据进行训练 , 从而学习模型参数 , 以最大化联合概率P(X,Y) 。
分类有时被称为判别模型 , 这有一定道理 , 毕竟分类模型就是要到输入实例的类别进行判断 。
无监督模型一般会对输入变量的分布进行学习 , 并能够根据输入分布创建或生成新的实例 , 类似这样的模型称为生成式模型 。
对于变量分布已知的情况 , 如高斯分布 。
由于生成模型能够总结数据分布 , 因此可以根据输入变量分布生成新变量 。
在这种情况下 , 生成模型可能非常适合 , 而使用判别模型的化则会使问题复杂化 , 反之亦然 。
例如对于条件预测任务 , 判别模型表现显著优于生成模型 , 同时具有更好的正则性 。
图源:Tran Mau Tri Tam , Unsplash
看这样一个例子:有Tony和Mark两个小朋友 , 他们要在宠物商店中分辨出小猫和小狗 。 对于宠物 , 我们假定它们包含颜色、大小、眼睛颜色、毛发长短和叫声等特征 。
给Mark两张照片 , 一张是猫 , 一张是狗 , Mark要做出判断 。 他想到可以根以下条件进行判断:如果叫声是“喵喵”、眼睛是蓝色或绿色、具有褐色或黑色的条纹 , 则大概率会是猫 。 根据这样的简单规则 , Mark可以容易的识别出猫或狗 。
Tony的任务可没这么简单 。 不是要他判断图片中是猫还是狗 , 而是要在两张白纸上画出猫和狗的样子 。 Tony能够画出猫和狗的样子 , 那么给他展示图片 , 他也很容易的区分出图中是猫还是狗 。 可以看到 , 相比Mark的方法 , Tony的方法更加耗时 。
假设只有猫狗两种宠物 。 如果一张图片上是蓝眼睛、棕色条纹的狗 , 那么Mark可能会将其标记为猫 , 但Tony可以判断出图片中一定是狗 。
如果Tony对猫和狗的特征了解的更多 , 他能够绘制出更详细准确的图画 。 但是 , 如果提供足够多的猫狗数据集 , 那么Mark会表现得更好 。
Mark的判断方法就是认真的观察 , 总结能够区分的特征 , 但过多的复杂特征会导致过拟合 , 但Tony不会遇到这种情况 。
如果在访问宠物商店之前 , 他们没有任何信息呢?也就是说只提供未标注的数据 。 这种情况下 , Mark完全不知道该怎么做 , Tony也判别不出什么(因为他不知道“猫”“狗”这两个类别) , 但至少Tony可以根据看到的猫和狗去画图 , 这难道不是巨大的优势吗?半监督就是如此 。
在上述例子中 , Mark就是判别式方法 , 而Tony代表生成式方法 。
本文插图
图源:Morning Brew , Unsplash
再看另一个例子 , 将语音分类为语言模型 。
判别式方法重点在区别语言模型间的差异 。 无需学习语言就可实现语音分类 。 而生成式方法需要学习每种语言 , 根据学习到的知识进行分类 。
本文插图
图源:Antoine Dautry , Unsplash
数学上的区别
判别式机器学习训练模型在可能的输出选项中选择正确输出 , 通过训练学习使条件概率P(Y | X)最大化的模型参数 。
推荐阅读
- 微生物|生物工程师的致富之路:微生物细胞工厂打造指南
- 行业互联网|英国运输技术论坛发布网络安全标准和指南摘要
- 富前程社群裂变|富船长:Persona用户角色模型——一个找痛点神器
- 交易|腾讯回应《反垄断指南》影响:平台开放 欢迎各类竞争
- |近期必读 ICLR 2021 模型压缩&预训练相关论文
- 交易|腾讯回应《反垄断指南》影响:平台开放,欢迎各类竞争
- |新模型揭示:餐馆是感染新冠“热点”场所
- 询盘云|外贸人必看:2020谷歌广告投放进阶指南
- 平台|平台经济领域反垄断重磅指南来袭 “大数据杀熟”面临严监管
- |“增长”成娱乐营销必考题,酷营销-CBD模型为最佳选项?
