文章插图
那么 , “数据预处理”的目的是什么?
它试图解决数据收集中可能出现的问题 。
例如 , 在您收集的某些客户数据中,您可能有一个注册年龄为932岁或“英国”为名字的人 。在进行任何分析之前,您需要将此数据标记为无效或更正 。这就是数据预处理的全部内容!
让我们研究一下在预处理传统和大原始数据时应用的技术吗?
类标签
这涉及将数据点标记为正确的数据类型,换句话说,按类别排列数据 。
我们将传统数据分为两类:
一类是“数字” –如果您要存储每天售出的商品数量,那么您就在跟踪数值 。这些是您可以操纵的数字 。例如,您可以计算出每天或每月销售的平均商品数量 。
另一个标签是“分类的” –在这里您正在处理数学无法处理的信息 。例如,一个人的职业 。请记?。?数据点仍然可以是数字 , 而不是数字 。他们的出生日期是一个数字,您不能直接操纵它来给您更多的信息 。
考虑基本的客户数据 。*(使用的数据集来自我们的 SQL课程)
我们将使用包含有关客户的文本信息的此表来给出数字变量和分类变量之间差异的清晰示例 。

文章插图
注意第一列,它显示了分配给不同客户的ID 。您无法操纵这些数字 。“平均” ID不会给您任何有用的信息 。这意味着,即使它们是数字,它们也没有数值,并且是分类数据 。
现在 , 专注于最后一列 。这显示了客户提出投诉的次数 。您可以操纵这些数字 。将它们加在一起以给出总数的投诉是有用的信息 , 因此,它们是数字数据 。
我们可以查看的另一个示例是每日历史股价数据 。
*这是我们在课程Python课程中使用的内容 。

文章插图
您在此处看到的数据集中,有一列包含观察日期,被视为分类数据 。还有一列包含股票价格的数字数据 。
当您使用大数据时,事情会变得更加复杂 。除了“数字”和“分类”数据之外,您还有更多的选择,例如:
文字数据
数字图像数据
数字视频数据
和数字音频数据
数据清理
也称为“ 数据清理” 或“ 数据清理” 。
数据清理的目的是处理不一致的数据 。这可以有多种形式 。假设您收集了包含美国各州的数据集,并且四分之一的名称拼写错误 。在这种情况下,您必须执行某些技术来纠正这些错误 。您必须清除数据;线索就是名字!

文章插图
大数据具有更多数据类型,并且它们具有更广泛的数据清理方法 。有一些技术可以验证数字图像是否已准备好进行处理 。并且存在一些特定方法来确保文件的音频 质量足以继续进行 。
缺失值
“ 缺失的 价值观”是您必须处理的其他事情 。并非每个客户都会为您提供所需的所有数据 。经常会发生的是,客户会给您他的名字和职业,而不是他的年龄 。在这种情况下您能做什么?

文章插图
您是否应该忽略客户的整个记录?还是您可以输入其余客户的平均年龄?
无论哪种最佳解决方案,都必须先清理数据并处理缺失值,然后才能进一步处理数据 。
处理传统数据的技术
让我们进入处理传统数据的两种常用技术 。
平衡
想象一下,您已经编制了一份调查表,以收集有关男女购物习惯的数据 。假设您想确定谁在周末花了更多钱 。但是,当您完成数据收集后 , 您会发现80%的受访者是女性,而只有20%是男性 。

文章插图
在这种情况下 , 您发现的趋势将更趋向于女性 。解决此问题的最佳方法是应用平衡技术 。例如,从每个组中抽取相等数量的受访者,则该比率为50/50 。

文章插图
数据改组
从数据集中对观察结果进行混洗就像对一副纸牌进行混洗一样 。这将确保您的数据集不会出现由于有问题的数据收集而导致的有害模式 。数据改组是一种改善预测性能并有助于避免产生误导性结果的技术 。
但是如何避免产生错觉呢?
好吧,这是一个详细的过程,但概括地说,混洗是一种使数据随机化的方法 。如果我从数据集中获取前100个观察值,则不是随机样本 。最高的观察值将首先被提取 。如果我对数据进行混洗,那么可以肯定的是,当我连续输入100个条目时,它们将是随机的(并且很可能具有代表性) 。
推荐阅读
- 文竹盆栽的养殖方法和注意事项 文竹盆景怎么养
- 补充胶原蛋白的最好方法是什么 脸部缺胶原蛋白怎么补
- 蝈蝈养殖方法 蝈蝈养殖
- 黑油变清油的方法 黑油变清的方法有哪些
- 黏土层基坑止水有哪些施工方法 基坑验槽前可以浇垫层吗
- 脸上有斑的看过来!选用这些方法,让肌肤变得更白嫩
- 吃素要谨记四大原则 初一十五吃素的正确方法
- 84消毒片使用方法说明 84消毒片使用方法
- 人体测温枪使用方法 人体测温枪使用方法图片
- 测温枪使用方法
