■高斯混合模型（GMM）：理念、数学、EM算法和python实现

本文插图
高斯混合模型是一种流行的无监督学习算法。 GMM方法类似于K-Means聚类算法，但是由于其复杂性，它更健壮，因此更有用。
K-means聚类使用欧式距离函数来发现数据中的聚类。只要数据相对于质心呈圆形分布，此方法就可以很好地工作。但是，如果数据是非线性的呢？或者数据具有非零的协方差呢？如果聚类具有不同的均值和协方差怎么办？
这就要用到高斯混合模型了!
GMM假设生成数据的是一种混合的高斯分布。与将数据点硬分配到聚类的K-means方法（假设围绕质心的数据呈圆形分布）相比，它使用了将数据点软分配到聚类的方法（即概率性，因此更好）。
简而言之， GMM效果更好，因为：（A）通过使用软分配捕获属于不同聚类的数据点的不确定性，（B）对圆形聚类没有偏见。即使是非线性数据分布，它也能很好地工作。
GMM
GMM的目标函数是最大化数据X、p(X)或对数似然值L的似然值(因为对数是单调递增函数) 。通过假设混合了K个高斯来生成数据，我们可以将p（X）写为边缘概率，对所有数据点的K个聚类求和。

本文插图
似然值

本文插图
对数似然值
利用上面对数函数的求和，我们不能得到解析解。看起来很讨厌，但这个问题有一个很好的解决方案：Expectation-Maximization（EM）算法。
数学
EM算法是一种迭代算法，用于在无法直接找到参数的情况下寻找模型的最大似然估计(MLE) 。它包括两个步骤:期望步骤和最大化步骤。
1.期望步骤:计算成员值r_ic 。这是数据点x_i属于聚类c的概率。

本文插图
2. 最大化步骤：计算一个新参数mc ，该参数确定属于不同聚类的点的分数。通过计算每个聚类c的MLE来更新参数μ ， π ， Σ 。

本文插图
重复EM步骤，直到对数似然值L收敛。
Python编码
让我们从头开始用python编写GMM的基本实现。
生成一维数据。
x = np.linspace(-5, 5, 20) x1 = x*np.random.rand(20) x2 = x*np.random.rand(20) + 10 x3 = x*np.random.rand(20) - 10 xt = np.hstack((x1,x2,x3))初始化GMM的参数：μ ， π ， Σ 。
max_iterations = 10 pi = np.array([1/3, 1/3, 1/3]) mu = np.array([5,6,-3]) var = np.array([1,3,9]) r = np.zeros((len(xt), 3))运行EM算法的第一次迭代
import matplotlib.pyplot as plt import numpy as np from scipy.stats import norm gauss1 = norm(loc=mu[0], scale=var[0]) gauss2 = norm(loc=mu[1], scale=var[1]) gauss3 = norm(loc=mu[2], scale=var[2]) # E-Step for c,g,p in zip(range(3), [gauss1, gauss2, gauss3], pi): r[:,c] = p*g.pdf(xt[:]) for i in range(len(r)): r[i,:] /= np.sum(r[i,:]) fig = plt.figure(figsize=(10,10)) ax0 = fig.add_subplot(111) for i in range(len(r)): ax0.scatter(xt[i],0,c=r[i,:],s=100) for g,c in zip([gauss1.pdf(np.linspace(-15,15)),gauss2.pdf(np.linspace(-15,15)),gauss3.pdf(np.linspace(-15,15))],['r','g','b']): ax0.plot(np.linspace(-15,15),g,c=c,zorder=0) ax0.set_xlabel('X-axis') ax0.set_ylabel('Gaussian pdf value') ax0.legend(['Gaussian 1', 'Gaussian 2', 'Gaussian 3']) plt.show() # M-Step mc = np.sum(r, axis=0) pi = mc/len(xt) mu = np.sum(r*np.vstack((xt, xt, xt)).T, axis=0)/mc var = [] for c in range(len(pi)): var.append(np.sum(np.dot(r[:,c]*(xt[i] - mu[c]).T, r[:,c]*(xt[i] - mu[c])))/mc[c])

■高斯混合模型（GMM）：理念、数学、EM算法和python实现

推荐阅读

澎湃新闻|美国得州、加州等多地疫情反弹，经济重启计划受阻

蜡烛芯是什么线?蜡烛芯是什么材料做成的

省钱博主小长长成“行走的衣柜”，穿搭堪称小机灵女孩范本，娇小可爱赵丽颖

大海的创业干货分享您也可以，网店做起来关键看什么？分析好这些数据

不能容忍孩子不优秀是个什么心态？

土默特右旗融媒体中心自治区副主席黄志强来我旗调研

天气变冷，奉上简单易学又好吃的8道炖菜，第一次吃就爱上了

夜宵吃水果会胖吗

【行走自贸区】全力以赴烟台自贸片区争做海洋经济发展排头兵

家庭如何储存瓶装白酒？

紫菜来说娱乐@两位小公主可爱又漂亮，《丑女无敌》李欣汝罕见晒女儿照片

增幅|揭秘小镇青年理财现状：“基民”增幅最快收益偏低

比亚迪秦pro|全球销量王“卡罗拉”，2021款都改变了哪里，“车机系统”是亮点

同步上云《热血传奇怀旧版》今日开启重聚测试

陈数老公回应：陈数老公搂神秘女子亲密合影回应来了还配了另外两人的照片

DS风清▲它正在衰落，这是好事，美媒说了句大实话：美国是一股有害力量

市场|国产PD-1市场上半年销售超22亿适应症之争还在继续

育儿网|只因妈妈喜欢这种调料！父母们长点心吧，孩子被查出肾衰竭

闷下款普洱茶的好坏可能就看出来了

nm|“熟面孔”中芯国际上市，科创板会否吸引更多外资布局？