『Python』Python爬虫笔记：爬取单个页面( 三 ) |网络爬虫|HTML|浏览器|

soup = BeautifulSoup(html,'html.parser') 在处理后的数据中提取出所有class=col-md-1的div的内容
nums = soup.find_all('div',class_='col-md-1') 此是我们的数据变为：

本文插图
注意这里我圈出的细节，这说明经过处理后的数据存储到了一个列表中。
接下来就是需要把除了数字之外的字符全部剔除
x = re.findall(r'\d\d\d',str(nums),re.DOTALL) 因为正则表达式是针对字符串的，所以我们需要用str方法将刚获取到的数据转化为字符串类型， findall方法的第一个参数即是匹配三位数字的正则表达式， re.DOTALL表示匹配所有字符，包括换行符等特殊符号。
re模块中的Findall方法，和BeautifulSoup模块的find_all方法完全不一样。

本文插图
Python re模块的官方文档中详细罗列了各个方法的使用方法和一些简单的正则表达式知识。
至此，我们就已经将所有的数值匹配出来了

本文插图
接下来就可以使用for循环通过下标对这个列表进行遍历，然后将数据累加求和，这部分的代码不再给出。
多尝试，三行代码就能解决。
另外，其实BeautifulSoup和re任意一个模块都可以完成数据筛选工作，我没用的原因是因为我懒。
最后给出最终运行结果

本文插图

本文插图
【『Python』Python爬虫笔记：爬取单个页面】

『Python』Python爬虫笔记：爬取单个页面( 三 )

推荐阅读

数字财经智库科技这5类首当其冲，失业真的要来？马云曾发预警：50%工作被替代

『地中海』六大主流风格庭院设计，植物配置，配图，详解

『游戏湿太』Clearlove：打得不好的时候会阴阳怪气他们，EDG赛后群访

张兰|张兰骨头疼仍直播，满头白发显沧桑，曾揭密大S刷卡失败原因

你觉得把啥东西的logo遮起来，那东西看起来还不错

新华网|提升出行感受，第三届进博会交通保障更优化

俯卧撑|女子花48000元做了改善胸部下垂手术，发现效果与医院承诺的相差甚远

浅浅说科技|搭载65W超级快充，还解决5G手机的通病，充电第一的5G手机诞生

红茶的饮用与保存方法,红茶调饮法每克茶

21财闻汇iPhone12真要来了？但苹果还是一夜蒸发了3800亿元

玫瑰花茶的泡法解析视频玫瑰花茶的泡法解析

中国新闻网|淮河发生2020年第1号洪水水利部全力做好应对工作

伊隆·马斯克|世界首富马斯克开始裁员，地主家的余粮也不多了？

精神病患者能活多久(精神病老是不停乱说话怎么办)

Canalys数据显示：vivo稳居Q2中国智能手机市场第二

修饰|街拍:身材玲珑有致的小姐姐,无需过多的修饰就可以展现你的魅力

滇红茶怎么分等级的？

晶用军事|激光武器怎样才能击落导弹和运载火箭？

应试教育@富人的教育，穷人玩不起，平民子弟只有认真备战高考才是王道

家人|大雪后，家人迷上这早餐，5分钟蒸一锅，营养好消化，解馋又顶饱