关于分类数据编码所需了解的所有信息（使用Python代码）( 三 ) 介绍机器学习模型的性能不仅取决于模型

此外，它们可能会导致虚拟变量陷阱。这是特征高度相关的现象。这意味着使用其他变量，我们可以轻松预测变量的值。
由于数据集的大量增加，编码使模型的学习变慢，并且整体性能下降，最终使模型的计算昂贵。此外，在使用基于树的模型时，这些编码不是最佳选择。
效果编码（Effect Encoding）这种编码技术也称为偏差编码（Deviation Encoding）或求和编码（Sum Encoding）。效果编码几乎与虚拟编码类似，只是有一点点差异。在虚拟编码中，我们使用0和1表示数据，但在效果编码中，我们使用三个值，即1,0和-1 。
在虚拟编码中仅包含0的行在效果编码中被编码为-1 。在虚拟编码示例中，索引为4的班加罗尔城市被编码为0000 。而在效果编码中，它是由-1-1-1-1表示的。
让我们看看我们如何在python中实现它
import category_encoders as ceimport pandas as pddata=http://kandian.youth.cn/index/pd.DataFrame({'City':['Delhi','Mumbai','Hyderabad','Chennai','Bangalore','Delhi,'Hyderabad']}) encoder=ce.sum_coding.SumEncoder(cols='City',verbose=False,)# 原始数据data
文章插图
encoder.fit_transform(data)
文章插图
哈希编码器要理解哈希编码，就必须了解哈希。哈希是以固定大小值的形式对任意大小的输入进行的转换。我们使用哈希算法来执行哈希操作，即生成输入的哈希值。
此外，哈希是一个单向过程，换句话说，不能从哈希表示生成原始输入。
散列有几个应用，如数据检索、检查数据损坏以及数据加密。我们有多个哈希函数可用，例如消息摘要（MD、MD2、MD5）、安全哈希函数（SHA0、SHA1、SHA2）等等。
就像独热编码一样，哈希编码器使用新的维度来表示分类特性。在这里，用户可以使用n_component参数来确定转换后的维度数量。这就是我的意思——一个有5个类别的特征可以用N个新特征来表示。同样，一个有100个类别的特征也可以用N个新特征来转换。听起来不错吧？
默认情况下，哈希编码器使用md5哈希算法，但用户可以传递他选择的任何算法。
import category_encoders as ceimport pandas as pd#Create the dataframedata=http://kandian.youth.cn/index/pd.DataFrame({'Month':['January','April','March','April','Februay','June','July','June','September']})#Create object for hash encoderencoder=ce.HashingEncoder(cols='Month',n_components=6)
文章插图
# 调整和转换数据encoder.fit_transform(data)
文章插图
由于哈希将数据转换为较小的维度，因此可能导致信息丢失。哈希编码器面临的另一个问题是冲突。由于此处将大量特征描绘成较小的尺寸，因此可以用相同的哈希值表示多个值，这称为冲突。
此外，哈希编码器在某些Kaggle比赛中非常成功。最好尝试一下数据集是否具有高基数特征。
二进制编码二进制编码是哈希编码和独热编码的组合。在这种编码方案中，首先使用有序编码器将分类特征转换为数值。然后将数字转换为二进制数。之后，该二进制值将拆分为不同的列。
当类别很多时，二进制编码的效果很好。例如，公司提供产品的国家/地区的城市。

关于分类数据编码所需了解的所有信息（使用Python代码）( 三 )

推荐阅读

工人日报|地震预警，5秒真的太短吗

多多爱追剧|自律才能阻止油腻！，38岁韩寒消失43天后大变身：人到中年

『智能手机』许多人曾经用过的功能，可能真的要跟我们说再见了

百度|估值130亿！百度昆仑成立独立芯片公司欧阳剑任CEO

[孙莉]24岁的黄磊为何一眼看中18岁的孙莉，看看孙莉青涩照，难怪黄磊下手这么快！

二次元木之本樱|三个人谁最强？实战与剧情结果不同第一，游戏打败过十代第二，游星承认游戏更强第三，幻神卡加持，游戏王：游戏、十代和游星

宠物|你床底下的落灰宠物小精灵卡现在可能值套房

【汽车资讯|【事故首发】5月27日04:35G22青兰高速谗柳段事故处置进展】

金国是现在的哪里

星座人缘@桃花经久不衰，年纪越大越有女人味！，最让男人关注的3个生肖女

|视窗｜江西南昌：网络安全高手过招

【微信】微信这个设置再不关闭，隐私可能就暴露了，别不当回事，快学学

尼安德特人：尼安德特人的复仇：和现代人祖先春风几度，给我们留下无尽祸根

现在开淘宝店前景怎么样淘宝运营赚钱吗

逗得掉渣渣女神给我发了一张扮鬼脸的照片，是什么意思？，搞笑gif段子：

男性|男性各年龄段必做的体检项目，这篇文章全说清楚了

电竞撸圈老司机|CSGO一哥直播炫耀5万的游戏匕首？老婆听到后瞬间炸了

主席|超预期就业数据难掩美国经济衰退困境

穿搭|15年前的宋慧乔，干练造型，乳白色针织衫温柔成邻家妹妹

勒布朗·詹姆斯：30队经理投票，现役最强5人组！自05年，詹姆斯首次落选