如何用 Python 清洗数据？ _Python

文章插图

0. 序言
在做数据分析之前，我们首先要明确数据分析的目标，然后应用数据分析的思维，对目标进行细分，再采取相应的行动。
我们可以把数据分析细分为以下 8 个步骤：
（1）读取
（2）清洗
（3）操作
（4）转换
（5）整理
（6）分析
（7）展现
（8）报告
在《如何用 Python 读取数据？》这篇文章中，我们学习了从 5 种不同的地方读取数据的方法，接下来，我们将利用其中的一种方法，从 Excel 文件中读取原始数据，然后利用 Python 对它进行清洗。
下面我们用一副待清洗的扑克牌作为示例，假设它保存在代码文件相同的目录下，在 Jupyter Lab 环境中运行以下代码：

import numpy as npimport pandas as pd# 设置最多显示 10 行pd.set_option('max_rows', 10)# 从 Excel 文件中读取原始数据df = pd.read_excel('待清洗的扑克牌数据集.xlsx')df

返回结果如下：

文章插图

这幅待清洗的扑克牌数据集，有一些异常情况，包括：大小王的花色是缺失的，有两张重复的黑桃:spades: A ，还有一张异常的黑桃 :spades: 30 。
1. 如何查找异常？
在正式开始清洗数据之前，往往需要先把异常数据找出来，观察异常数据的特征，然后再决定清洗的方法。
# 查找「花色」缺失的行df[df.花色.isnull()]

文章插图

# 查找完全重复的行df[df.duplicated()]

文章插图

# 查找某一列重复的行df[df.编号.duplicated()]

文章插图

# 查找牌面的所有唯一值df.牌面.unique()返回结果：
array(['大王', '小王', 'A', '30', 4, 5, 6, 7, 8, 9, 10, 'J', 'Q', 'K', 2, 3], dtype=object)
根据常识可以判断，牌面为 30 的是异常值。
# 查找「牌面」包含 30 的异常值df[df.牌面.isin(['30'])]

文章插图

# 查找王牌，模糊匹配df[df.牌面.str.contains('王', na=False)]

文章插图

# 查找编号在 1 到 5 之间的行df[df.编号.between(1, 5)]

文章插图

查找某个区间，也可以用逻辑运算的方法来实现：
# 查找编号在 1 到 5 之间的行df[(df.编号 >= 1)& (df.编号 <= 5)]其中「 & 」代表必须同时满足两边的条件，也就是「且」的意思。
还可以用下面等价的方法：
# 查找编号在 1 到 5 之间的行df[~((df.编号 < 1)| (df.编号 > 5))]其中「 | 」代表两边的条件满足一个即可，也就是「或」的意思，「 ~ 」代表取反，也就是「非」的意思。
2. 如何排除重复？
使用 drop_duplicates() 函数，在排除重复之后，会得到一个新的数据框。
# 排除完全重复的行，默认保留第一行df.drop_duplicates()返回结果如下：

文章插图

如果想要改变原来的数据框，有两种方法，一种方法，是增加 inplace 参数：
# 排除重复后直接替换原来的数据框df.drop_duplicates(inplace=True)另一种方法，是把得到的结果，重新赋值给原来的数据框：
# 排除重复后，重新赋值给原来的数据框df = df.drop_duplicates()如果想要按某一列排除重复的数据，那么指定相应的列名即可。

# 按某一列排除重复 ， 默认保留第一行df.drop_duplicates(['花色'])
上一页
1
2
3
下一页
		  	






























推荐阅读

           
                  
              
                  跌停：下周，A股“大涨在即”？ 
                
                   
                
              
            

                  
              
                  曹操的坟墓被挖出来了吗?曹操坟墓是怎么发现的呢 
                
                   
                
              
            

                  
              
                  学霸|哪些学生容易成为高考“黑马”？高中班主任：学霸都考不过这4类 
                
                   
                
              
            

                  
              
                  「早安京剧」京剧“梅兰芳时代”能否重现？ 
                
                   
                
              
            

                  
              
                  为啥骑行在国道上会引来许多异样的目光 
                
                   
                
              
            

                  
              
                  如果你总是猜疑男生爱不爱你，强烈建议你看看这篇文章 
                
                   
                
              
            

                  
              
                  时报天下|我将提起诉讼，特朗普或遭起诉！美国纽约州检察官：总统戏耍人民 
                
                   
                
              
            

                  
              
                  南湾不丘|越喜欢和领导说这3句话，难怪不被重用，情商越低的人 
                
                   
                
              
            

                  
              
                  玫瑰花茶的功效与禁忌,玫瑰花茶的功效与禁忌有哪些 
                
                   
                
              
            

                  
              
                  羽毛球规则怎样的？ 
                
                   
                
              
            

                  
              
                  车家号|动感亮眼，中期改款起亚锐欧亮相 
                
                   
                
              
            

                  
              
                  #怪物猎人#盘点：三款游戏操作生硬，但又好好玩游戏！旋转轮胎上榜, 怪物猎人位列榜首！ 
                
                   
                
              
            

                  
              
                  游戏主|王者心态继撞车赖神后，北慕也遭毒手，赛后1句嘲讽惹众怒 
                
                   
                
              
            

                  
              
                  企业：我国今年成立超18.5万家快递物流相关企业，同比上涨11.5% 
                
                   
                
              
            

                  
              
                  斗鱼直播|斗鱼S10：DWG战胜PSG却暴露大问题，上单或成突破点 
                
                   
                
              
            

                  
              
                  体检有什么项目要求 考驾照要体检吗 
                
                   
                
              
            

                  
              
                  【环球时报】视频博主强迫宠物当大胃王，网友怒了 
                
                   
                
              
            

                  
              
                  23岁迷茫，不值当干嘛 
                
                   
                
              
            

                  
              
                  学好留学英语的捷径 留学英语学习 
                
                   
                
              
            

                  
              
                  嘉月快讯|若脚上没有这3种“标志”恭喜了你可能是癌细胞“害怕”的人 
                
                   
                
              
            

          

SEM账户遇突发情况该如何排查？ 

如何新建店铺的定位 淘宝店铺怎么定位 

淘宝首页怎么设计 手机如何制作淘宝详情页 

茶树是如何发现的,中国茶树的起源 

ps如何做淘宝详情页长图 淘宝怎么批量修改详情页 

蝴蝶|生命里最难熬的日子，该如何度过？ 

茶叶蛋如何存放呢,煮茶叶蛋用什么茶呢 

如何在淘宝上价格低到高出现 淘宝商品价格过低正常吗 

杜仲茶是怎么降血压的,杜仲茶的春茶和秋茶如何选择 

大红袍等级如何划分,普洱茶的樟香和等级划分