机器学习10种经典算法的Python实现( 四 )


还记得从墨水渍里找出形状的活动吗?K – 均值算法在某方面类似于这个活动 。观察形状,并延伸想象来找出到底有多少种集群或者总体 。

机器学习10种经典算法的Python实现

文章插图
 
K – 均值算法怎样形成集群:
  1. K – 均值算法给每个集群选择k个点 。这些点称作为质心 。
  2. 每一个数据点与距离最近的质心形成一个集群,也就是 k 个集群 。
  3. 根据现有的类别成员,找出每个类别的质心 。现在我们有了新质心 。
  4. 当我们有新质心后,重复步骤 2 和步骤 3 。找到距离每个数据点最近的质心,并与新的k集群联系起来 。重复这个过程,直到数据都收敛了,也就是当质心不再改变 。
如何决定 K 值:
K – 均值算法涉及到集群,每个集群有自己的质心 。一个集群内的质心和各数据点之间距离的平方和形成了这个集群的平方值之和 。同时,当所有集群的平方值之和加起来的时候,就组成了集群方案的平方值之和 。
我们知道,当集群的数量增加时,K值会持续下降 。但是,如果你将结果用图表来表示,你会看到距离的平方总和快速减少 。到某个值 k 之后,减少的速度就大大下降了 。在此,我们可以找到集群数量的最优值 。
机器学习10种经典算法的Python实现

文章插图
 
Python代码
#Import Libraryfrom sklearn.cluster import KMeans#Assumed you have, X (attributes) for training data set and x_test(attributes) of test_dataset# Create KNeighbors classifier object model k_means = KMeans(n_clusters=3, random_state=0)# Train the model using the training sets and check scoremodel.fit(X)#Predict Outputpredicted= model.predict(x_test)8、随机森林
随机森林是表示决策树总体的一个专有名词 。在随机森林算法中,我们有一系列的决策树(因此又名“森林”) 。为了根据一个新对象的属性将其分类,每一个决策树有一个分类,称之为这个决策树“投票”给该分类 。这个森林选择获得森林里(在所有树中)获得票数最多的分类 。
每棵树是像这样种植养成的:
  1. 如果训练集的案例数是 N,则从 N 个案例中用重置抽样法随机抽取样本 。这个样本将作为“养育”树的训练集 。
  2. 假如有 M 个输入变量,则定义一个数字 m<<M 。m 表示,从 M 中随机选中 m 个变量,这 m 个变量中最好的切分会被用来切分该节点 。在种植森林的过程中,m 的值保持不变 。
  3. 尽可能大地种植每一棵树,全程不剪枝 。
若想了解这个算法的更多细节,比较决策树以及优化模型参数,我建议你阅读以下文章:
  1. 随机森林入门—简化版
  2. 将 CART 模型与随机森林比较(上)
  3. 将随机森林与 CART 模型比较(下)
  4. 调整你的随机森林模型参数
Python
#Import Libraryfrom sklearn.ensemble import RandomForestClassifier#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset# Create Random Forest objectmodel= RandomForestClassifier()# Train the model using the training sets and check scoremodel.fit(X, y)#Predict Outputpredicted= model.predict(x_test)9、降维算法
在过去的 4 到 5 年里,在每一个可能的阶段,信息捕捉都呈指数增长 。公司、政府机构、研究组织在应对着新资源以外,还捕捉详尽的信息 。
举个例子:电子商务公司更详细地捕捉关于顾客的资料:个人信息、网络浏览记录、他们的喜恶、购买记录、反馈以及别的许多信息,比你身边的杂货店售货员更加关注你 。
作为一个数据科学家,我们提供的数据包含许多特点 。这听起来给建立一个经得起考研的模型提供了很好材料,但有一个挑战:如何从 1000 或者 2000 里分辨出最重要的变量呢?在这种情况下,降维算法和别的一些算法(比如决策树、随机森林、PCA、因子分析)帮助我们根据相关矩阵,缺失的值的比例和别的要素来找出这些重要变量 。
想要知道更多关于该算法的信息,可以阅读 《降维算法的初学者指南》。
Python代码
#Import Libraryfrom sklearn import decomposition#Assumed you have training and test data set as train and test# Create PCA obeject pca= decomposition.PCA(n_components=k) #default value of k =min(n_sample, n_features)# For Factor analysis#fa= decomposition.FactorAnalysis()# Reduced the dimension of training dataset using PCAtrain_reduced = pca.fit_transform(train)#Reduced the dimension of test datasettest_reduced = pca.transform(test)#For more detail on this, please refer this link.


推荐阅读