「埃尔法哥哥」机器学习模型必不可少的5种数据预处理技术

【「埃尔法哥哥」机器学习模型必不可少的5种数据预处理技术】

本文插图

如果您曾经参与过数据科学项目，那么您可能会意识到数据挖掘的第一步和主要步骤是数据预处理。在现实生活问题中，我们得到的原始数据往往非常混乱，机器学习模型无法识别模式并从中提取信息。
1.处理空值:
空值是数据中任何行或列中缺失的值。空值出现的原因可能是没有记录或数据损坏。在python中，它们被标记为“Nan” 。您可以通过运行以下代码来检查它
data.isnull().sum()
我们可以用该列的平均值或该列中最频繁出现的项来填充这些空值。或者我们可以用-999这样的随机值替换Nan 。我们可以使用panda库中的fillna()函数来填充Nan的值。如果一列有大量的空值(假设超过50%) ，那么将该列从dataframe中删除会更好。您还可以使用来自同一列中不为空的k近邻的值来填充空值。 Sklearn的KNNImputer()可以帮助您完成这项任务。
2. 处理离群值:
离群值是与数据中的其他值保持一定距离的数据点。我们可以使用可视化工具（例如Boxplots）来检测离群值:

本文插图

通过绘制两个特征向量之间的散点图：

本文插图

散点图中的离群值
如果您了解数据背后的科学事实（例如这些数据点必须位于的范围），则可以将离群值排除在外。例如，如果年龄是您数据的特征，那么您就知道它必须介于0到100之间（或在某些情况下介??于0到130岁之间）。但是，如果数据中的年龄值有些荒谬，例如300 ，那么必须将其删除。如果机器学习模型的预测很关键，即微小的变化都很重要，那么您就不应该放弃这些离群值。同样，如果离群值大量存在（例如25％或更多），那么它们很有可能代表有用的东西。在这种情况下，您必须仔细检查离群值。
3. 归一化或数据缩放：
如果您使用的是基于距离的机器学习算法，例如K近邻，线性回归， K均值聚类或神经网络，那么在将数据输入机器学习模型之前，对数据进行归一化是一个好习惯。归一化是指修改数值特征的值以使其达到共同的标度而不改变它们之间的相关性。不同数值特征中的值位于不同的范围内，这可能会降低模型的性能，因此归一化可以确保在进行预测时为特征分配适当的权重。一些常用的归一化技术是:
a）Min-Max归一化 -将特征缩放到最小和最大值之间的给定范围。公式为：
X(scaled)=a+ (b-a)(X - Xmin)/(Xmax - Xmin)
其中a是最小值， b是最大值。
b）Z-score归一化 -我们从每个特征中减去均值，然后除以其标准差，以使得到的缩放特征具有零均值和单位方差。公式为：
X(scaled)=(X - mean(X)) /σ
这样，您可以将数据的分布更改为正态分布。
4. 编码分类特征
分类特征是包含离散数据值的特征。如果一个分类特征有字符、单词、符号或日期作为数据值，那么这些数据必须被编码成数字，以便机器学习模型能够理解，因为它们只处理数字数据。有三种方法来编码你的数据:
a）标签编码：在这种类型的编码中，分类特征中的每个离散值都根据字母顺序分配一个唯一的整数。在下面的示例中，您可以看到为每个水果分配了一个相应的整数标签：

本文插图

「埃尔法哥哥」机器学习模型必不可少的5种数据预处理技术

推荐阅读

前沿最炫奇葩秀|木木的街拍：小外套，藏不住真相

萌小糸说历史|中华上下五千年的十大猛将排行榜！

虾和四季豆能一起吃吗

人民车市|难掩分化加剧，自主品牌7月销量回暖

开发一站式购物平台（app），支持淘宝、京东、当当、卓越，技术上可行吗大致该咋做

#孩子#疫情期间，如何帮助孩子养成健康的生活作息？

有声绘本故事@有声绘本故事《和爷爷奶奶过周末》

王学刚律师团队的“破冰”之旅

饺子|夏天此菜要多吃，钙是鸡肉的7倍，只要1元一斤，用来包饺子超级香

鞭牛士|薇娅与其丈夫间接持股40%，杭州爱娅生物科技有限公司注销

烹饪|15块钱一斤的石斑鱼，教你清蒸石斑鱼的做法，肉质鲜嫩，营养丰富

凯迪拉克·上海音乐厅年末发布“初心向前——2021音乐季1月-7月音乐会”精心策划演出，献礼建党百年

玩懂手机华为Mate X2折叠屏新机3C认证曝光：支持66W快充

丝瓜|这碗汤我家一周要喝10次，鲜美又滋补，秋天常喝让皮肤嫩得出水

炸杏鲍菇怎么做不软还酥脆炸杏鲍菇如何做不软还酥脆

「食材」大胃王挑战80个“炸鸡腿”，转换镜头一看穿帮，直接掉粉70万！

吃深绿色蔬菜能防白内障

练瑜伽美图|圈粉百万，又燃又励志！肥宅减重20斤成健身博主

「爱笑的傻猫」幽默笑话：让你知道什么叫做好马不吃回头草

「外交部」驻立陶宛使馆为留学生送温暖