『Python』Python爬虫笔记:爬取单个页面( 三 )
soup = BeautifulSoup(html,'html.parser') 在处理后的数据中提取出所有class=col-md-1的div的内容
nums = soup.find_all('div',class_='col-md-1') 此是我们的数据变为:
本文插图
注意这里我圈出的细节 , 这说明经过处理后的数据存储到了一个列表中 。
接下来就是需要把除了数字之外的字符全部剔除
x = re.findall(r'\d\d\d',str(nums),re.DOTALL) 因为正则表达式是针对字符串的 , 所以我们需要用str方法将刚获取到的数据转化为字符串类型 , findall方法的第一个参数即是匹配三位数字的正则表达式 , re.DOTALL表示匹配所有字符 , 包括换行符等特殊符号 。
re模块中的Findall方法 , 和BeautifulSoup模块的find_all方法完全不一样 。
本文插图
Python re模块的官方文档中详细罗列了各个方法的使用方法和一些简单的正则表达式知识 。
至此 , 我们就已经将所有的数值匹配出来了
本文插图
接下来就可以使用for循环通过下标对这个列表进行遍历 , 然后将数据累加求和 , 这部分的代码不再给出 。
多尝试 , 三行代码就能解决 。
另外 , 其实BeautifulSoup和re任意一个模块都可以完成数据筛选工作 , 我没用的原因是因为我懒 。
最后给出最终运行结果
本文插图
本文插图
【『Python』Python爬虫笔记:爬取单个页面】
推荐阅读
- [笔记本电脑]乙辰科技正式发布首款WiFi6新品:北斗II号分布式无线路由器
- 笔记本硬盘升级改造计划,三星原厂闪存加持的康佳K520 SSD怎么样
- 【小谦笔记】修复诸多崩溃问题,安卓11迎来开发者预览2.1版本
- [硬顶科技]潮夜绿色彩,十代酷睿处理器加持,颜值笔记本又推新款
- 「数评时代」大家可以来抄了,如何打造顶级笔记本?华硕ROG双屏旗舰给出作业
- #数评时代#大家可以来抄了,如何打造顶级笔记本?华硕ROG双屏旗舰给出作业
- 科技小数据■Python培训完能够做数据分析类的工作吗?
- 「」宏碁传奇14笔记本预售 价格太疯狂啦
- 原呵呵▲ZephyrusDuo15笔记本电脑:双屏炫酷,华硕ROG
- 超能网:技嘉推出新AORUSu002FAERO系列笔记本:分别针对高端电竞和专业创作市场
