随机森林|决策树VS随机森林——应该使用哪种算法？（附代码&链接）( 三 ) |算法|银行|Pytho

让我们从导入所需的Python库和我们的数据集开始:

本文插图

数据库包括614列和13个特征，包括信用历史（credit history），婚姻状况（marital status），贷款额度(loan amount) ，和性别（gender）。在这里，目标变量是是否贷款（Loan_Status），该变量表明是否一个人能够被批准获得贷款。
第二步：数据预处理
现在到了任何数据科学项目中最为关键的部分——数据预处理和特征工程。本部分中，我将处理数据中的类别变量以及缺失值插补。
我将使用特定的模式对类别变量中的缺失值进行插补，并且对连续型变量用平均值插补（每列分别插补）。我们也将对类别变量进行标签设置。你可以阅读以下文章来了解更多关于标签编码的内容。
https://www.analyticsvidhya.com/blog/2016/07/practical-guide-data-preprocessing-python-scikit-learn/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm
# Data Preprocessing and null values imputation# Label Encodingdf['Gender']=df['Gender'].map({'Male':1,'Female':0})df['Married']=df['Married'].map({'Yes':1,'No':0})df['Education']=df['Education'].map({'Graduate':1,'Not Graduate':0})df['Dependents'].replace('3+',3,inplace=True)df['Self_Employed']=df['Self_Employed'].map({'Yes':1,'No':0})df['Property_Area']=df['Property_Area'].map({'Semiurban':1,'Urban':2,'Rural':3})df['Loan_Status']=df['Loan_Status'].map({'Y':1,'N':0})#Null Value Imputationrev_null=['Gender','Married','Dependents','Self_Employed','Credit_History','LoanAmount','Loan_Amount_Term']df[rev_null]=df[rev_null].replace({np.nan:df['Gender'].mode(),np.nan:df['Married'].mode(),np.nan:df['Dependents'].mode(),np.nan:df['Self_Employed'].mode(),np.nan:df['Credit_History'].mode(),np.nan:df['LoanAmount'].mean(),np.nan:df['Loan_Amount_Term'].mean()})rfc_vs_dt-2.py hosted with ? by GitHub
本文插图

第三步：创造训练集和测试集
现在，让我们以80:20的比例进行训练集和测试集的划分：
X=df.drop(columns=['Loan_ID','Loan_Status']).valuesY=df['Loan_Status'].valuesX_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 42)rfc_vs_dt-3.py hosted with ? by GitHub 让我们一眼所划分的训练集和测试集：
print('Shape of X_train=>',X_train.shape)print('Shape of X_test=>',X_test.shape)print('Shape of Y_train=>',Y_train.shape)print('Shape of Y_test=>',Y_test.shape)rfc_vs_dt-4.py hosted with ? by GitHub

本文插图

真棒！现在我们已经准备好进入下一个阶段构建决策树和随机森林模型了！
第四步：构建和评估模型
既然我们已经有了训练和测试集，是时候训练模型和分类贷款申请了。首先，我们将在数据机上进行决策树的训练：
# Building Decision Treefrom sklearn.tree import DecisionTreeClassifierdt = DecisionTreeClassifier(criterion = 'entropy', random_state = 42)dt.fit(X_train, Y_train)dt_pred_train = dt.predict(X_train)rfc_vs_dt-5.py hosted with ? by GitHub


上一页
1
2
3
4
5
下一页
		  	






























推荐阅读

           
                  
              
                  [岁月廷湖]南美巴铁开辟秘密航线，抢运大批国产N95口罩，严防被美国截胡 
                
                   
                
              
            

                  
              
                  哈弗|酷似概念车！哈弗神兽上市：怀挡太罕见 
                
                   
                
              
            

                  
              
                  啥时候开始觉得朋友的有些事情很矫情。或是自己不能接受的 
                
                   
                
              
            

                  
              
                  2月2号是什么星座 
                
                   
                
              
            

                  
              
                  古装剧@20年前的古装剧，男主和女主都爱上了配角，配角们却都不爱他们 
                
                   
                
              
            

                  
              
                  『皮小济』不要凶我，我害怕”四岁孩子说的话，让发火中的妈妈愧疚，“妈妈 
                
                   
                
              
            

                  
              
                  |“狂妄过头”华晨宇：惹张杰当众嘲讽可笑，敢言地位高过周杰伦! 
                
                   
                
              
            

                  
              
                  民进党|港媒：5名乱港分子偷渡台湾后被禁止外联，民进党下达“封口令” 
                
                   
                
              
            

                  
              
                  网络文艺作品讲故事：要“中看”更要“中用” 
                
                   
                
              
            

                  
              
                  「科技犬」一加8系列支持12款游戏高帧模式；三星 Galaxy Note20+性能曝光 
                
                   
                
              
            

                  
              
                  为什么总是失眠，或是这五点原因 
                
                   
                
              
            

                  
              
                  视联动力是一家烂透顶的公司么 
                
                   
                
              
            

                  
              
                  搞机小帝华为真正的大招是它，华为Mate40Pro概念图：洒花5摄＋药丸瀑布屏 
                
                   
                
              
            

                  
              
                  二十不惑2|官宣！世界职业技术教育发展大会即将在天津举办 
                
                   
                
              
            

                  
              
                  男子接陌生短信回“你是谁” 银行卡遭盗刷12次 
                
                   
                
              
            

                  
              
                  发动机故障灯亮是什么原因？ 
                
                   
                
              
            

                  
              
                  海选赛|第二届王者荣耀全国大赛海选赛-徐州复兴苏宁广场站 落下帷幕！ 
                
                   
                
              
            

                  
              
                  幻化成蝶|比国产EDA还惨？科研仪器全球前20强中，没一家中国企业 
                
                   
                
              
            

                  
              
                  养花也养人，2种花对身体好，老中医们也爱养 
                
                   
                
              
            

                  
              
                  娱乐大君君|赛季最佳阵容出炉！欧冠决赛两队仅2人入选，梅西携特狮入围 
                
                   
                
              
            

          

小茶|元气森林没有元气 

苹果手机|数码论：取消手机产品随机附赠充电器利弊谈 

证券日报|元気森林火速“爆红”，公司称采用类日系包装自有道理 

鹏飞奇闻|森林真的是越多越好吗？又是大规模增长，将会引发世界级的灾难 

电脑使用技巧,windows系统|微软推送全新Win10 V2004补丁更新，解决随机重启问题 

|“浮力森林”暂停营业背后，安全细节细思极恐！安全专家支招 

蓝鲸财经|饮料“黑马”元气森林布局酸奶业务？官方表示暂无消息公布 

专利|元气森林（北京）食品科技集团有限公司申请多个与酸奶相关专利 

橄榄油注意！中国森林被智利盯上 

宅秘|米家胶囊咖啡机亮相 众筹价349元随机赠送20颗胶囊

随机森林|决策树VS随机森林——应该使用哪种算法？（附代码&amp;链接）( 三 )

推荐阅读

随机森林|决策树VS随机森林——应该使用哪种算法？（附代码&链接）( 三 )