快速比较多种机器学习模型实例( 二 )

接下来， models保存在元组列表中，其中包含要测试的每个分类器的名称和类。在此之后，我们循环遍历这个列表并运行5-fold交叉验证。每次运行的结果都记录在我们附加到dfs列表的pandas dataframe中。必须注意，这里指标是两个类的加权平均指标。
测试集上的分类报告如下：

本文插图
评估结果
我们将分析从run_exps()脚本返回的final（dataframe）中的数据。
为了更好地估计每个模型的指标分布，我在30个样本上运行了empirical bootstrapping 。此外，我将关注两个指标:性能指标和拟合时间指标。下面的Python代码块实现了这一点。
bootstraps = [] for model in list(set(final.model.values)): model_df = final.loc[final.model == model] bootstrap = model_df.sample(n=30, replace=True) bootstraps.append(bootstrap) bootstrap_df = pd.concat(bootstraps, ignore_index=True) results_long = pd.melt(bootstrap_df,id_vars=['model'],var_name='metrics', value_name='values') time_metrics = ['fit_time','score_time'] # fit time metrics ## PERFORMANCE METRICS results_long_nofit = results_long.loc[~results_long['metrics'].isin(time_metrics)] # get df without fit data results_long_nofit = results_long_nofit.sort_values(by='values') ## TIME METRICS results_long_fit = results_long.loc[results_long['metrics'].isin(time_metrics)] # df with fit data results_long_fit = results_long_fit.sort_values(by='values')首先，让我们绘制来自5-fold交叉验证的性能指标。
import matplotlib.pyplot as plt import seaborn as sns plt.figure(figsize=(20, 12)) sns.set(font_scale=2.5) g = sns.boxplot(x=''model'', y=''values'', hue=''metrics'', data=http://news.hoteastday.com/a/results_long_nofit, palette=''Set3'') plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.) plt.title('Comparison of Model by Classification Metric') #plt.savefig('./benchmark_models_performance.png',dpi=300) plt.show()

本文插图
很明显，支持向量机在所有指标上对我们的数据的拟合度都很差，而集成决策树模型(Random Forest和XGBoost)对数据的拟合非常好。
训练时间怎么样呢?
plt.figure(figsize=(20, 12)) sns.set(font_scale=2.5) g = sns.boxplot(x=''model'', y=''values'', hue=''metrics'', data=http://news.hoteastday.com/a/results_long_fit, palette=''Set3'') plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.) plt.title('Comparison of Model by Fit and Score Time') plt.show()

本文插图
随机森林虽然相对于KNN、GNB和LogReg来说比较慢，但其性能仅次于KNN 。如果我继续细化模型，我可能会将大部分精力集中在随机森林上，因为它的性能几乎与XGBoost相同(它们的95%置信区间可能重叠) ，但训练速度几乎快了4倍!
如果您希望对这些模型进行更多的分析(例如，计算每个度量标准的置信区间) ，您将需要访问每个度量标准的均值和标准差。
metrics = list(set(results_long_nofit.metrics.values)) bootstrap_df.groupby(['model'])[metrics].agg([np.std, np.mean])

快速比较多种机器学习模型实例( 二 )

推荐阅读

【葛亮】葛亮：每次大的困难都会催生新的变革

一串红花后怎么修剪? 一束红花的繁殖方法简单易学

地下城与勇士■DNF：18号良心改动，天空减负20块一件！龙袍并没那么难

中超|中超争议判罚：门将扑点提前移动，马宁听完VAR之后拒绝重罚

社会谈资|“香蕉姐”领衔《飞越疯人院》前传剧公布上线日期及抢鲜剧照

悬念|首尔市长朴元淳身亡震惊韩国：他到底带走了多少悬念？

人民日报|合力维护人类共同家园安全（有的放矢）

天文在线|SpaceX展示并宣称他们的巨型星舰将在几个月内发射

中方将考虑不承认英国国民（海外）护照作为有效旅行证件

曹操为什么不称帝他的儿子却称帝?曹操为什么不称帝,而曹丕称帝_10

[蜜拓蜜大健康管理]湿气重的人，要3禁3用，湿气才会跑光

健身中转站|减肥却总是减掉肌肉？是你忽略了力量训练！怎么做我来告诉你

生活日用家电壁挂炉怎么选购冷凝壁挂炉有哪些优点

孙权为什么性情大变?孙权晚年为什么会成为暴君-

亲子相册|孙俪一条微博让1000万人泪目，邓超宣布息影退出娱乐圈

#索马里总理被罢免#索马里总理遭不信任投票被罢免

尹正|多次行程重合，尹正陈都灵疑似恋情曝光！网友：感觉差辈了

最江阴▲3800万现金！江阴发！

《三生三世十里桃花》拍摄地点在哪里普者黑在云南哪个市

云上小诗文|最后却成路人，只留下这首赠别诗，传颂千古，苏武和李陵多年知己