关于分类数据编码所需了解的所有信息（使用Python代码）( 四 ) 介绍机器学习模型的性能不仅取决于模型

#Import the librariesimport category_encoders as ceimport pandas as pd#Create the Dataframedata=http://kandian.youth.cn/index/pd.DataFrame({'City':['Delhi','Mumbai','Hyderabad','Chennai','Bangalore','Delhi','Hyderabad','Mumbai','Agra']})#Create object for binary encodingencoder= ce.BinaryEncoder(cols=['city'],return_df=True)# 原始数据data
文章插图
# 调整和转换数据 data_encoded=encoder.fit_transform(data) data_encoded
文章插图
二进制编码是一种节省内存的编码方案，因为它比独热编码使用更少的特性。此外，它还减少了高基数数据的维数灾难。
BaseN编码在开始使用BaseN编码之前，我们首先尝试了解什么是Base 。
在数字系统中， “底数”或“基数”是数字的数目或用于表示数字的数字和字母的组合。我们一生中最常用的基数是10或十进制，因为在这里我们使用10个唯一数字，即0到9来代表所有数字。另一个广泛使用的系统是二进制，即基数为2 。它使用0和1 ，即2位数字来表示所有数字。
对于二进制编码，基数为2 ，这意味着它将类别的数值转换为其各自的二进制形式。如果要更改基本编码方案，则可以使用BaseN编码器。如果类别更多，而二进制编码无法处理维数，则可以使用更大的底数，例如4或8 。
#Import the librariesimport category_encoders as ceimport pandas as pd#Create the dataframedata=http://kandian.youth.cn/index/pd.DataFrame({'City':['Delhi','Mumbai','Hyderabad','Chennai','Bangalore','Delhi','Hyderabad','Mumbai','Agra']})#Create an object for Base N Encodingencoder= ce.BaseNEncoder(cols=['city'],return_df=True,base=5)# 原始数据data
文章插图
# 调整和转换数据data_encoded=encoder.fit_transform(data)data_encoded
文章插图
在上面的例子中，我使用了base5 ，也就是所谓的五元体系。它类似于二进制编码的例子。二进制编码用4个新特性表示相同的数据，而BaseN编码只使用3个新变量。
因此， BaseN编码技术进一步减少了有效表示数据和提高内存使用率所需的特征数量。基数N的默认基数是2 ，这相当于二进制编码。
目标编码目标编码是一种贝叶斯编码技术。
贝叶斯编码器使用来自相关/目标变量的信息对分类数据进行编码。
在目标编码中，我们计算每个类别的目标变量的平均值，并用平均值替换类别变量。在分类目标变量的情况下，目标的后验概率代替每个类别。
#import the librariesimport pandas as pdimport category_encoders as ce#创建数据框data=http://kandian.youth.cn/index/pd.DataFrame({'class':['A,','B','C','B','C','A','A','A'],'Marks':[50,30,70,80,45,97,80,68]})#创建目标编码对象encoder=ce.TargetEncoder(cols='class') # 原始数据Data
文章插图
# 调整并转换数据encoder.fit_transform(data['class'],data['Marks'])
文章插图

关于分类数据编码所需了解的所有信息（使用Python代码）( 四 )

推荐阅读

趣风景世界中国芯片喜迎光刻机通行证，墙倒众人推！芯片禁令成为“笑话”

孕育岛|学会这四种食用方法，能解馋也能避免过敏，孕妇馋菠萝了怎么办

TVB|《香港小姐2023》海选惹争议？TVB高层乐易玲：我们会检讨

贾静雯|钟楚红回归家庭，王祖贤为情所困，这些明星大概不可能再次“复出”了吧

俄罗斯|曾是俄罗斯女篮国手！身材颜值超美，如今仍单身渴望脱单

java 学习路线

炎黄子孙风水文化|有财神关照，运势冲天，横财发不尽的属相，下周起

【前瞻网|特斯拉造车新势力销量排名第一，中国电动汽车领域首批强制性标准出台】

西部农产品：茶不醉人人自醉湄潭翠芽显神通

新氧App|比关晓彤还公主的女明星，16岁成国民女神，高二超一本线50分...

中秋逢国庆：八大处人祝祖国母亲生日快乐

[时尚最美]当众人面“内搭外穿”，这谁顶得住啊，39岁蔡依林是真放的开

四川凉山州冕宁县森林大火已扑灭

[百科鉴闻]曝光OPPO Ace2 5G超级玩家，Reno Ace大量现货价格狂跌！

蜜蜡：4个关键词，让你读懂2020年蜜蜡的价格趋势！

#控制器#PS 5 的 DualSense 控制器不兼容 PS 4，却能用于 PS 3 和 Nintendo Switch

男人长期喝什么茶？最好

青年|免费2D卷轴游戏《Symphonia》，来自法国学生超强毕业设计作品

PP体育|出言不逊被警方逮捕，扎哈维无视疫情“轰趴”被投诉

落夜电竞|玉剑仙太多怎么办？红莲：绕了一大圈，夜幽锐雯又回来了