全局匹配格式
re.compile(正则表达式).findall(数据)string1 = "a**fewfaaa"pat1 = "d.*?a"ret=re.compile(pat1).findall(string1)print(ret)结果['da']在码文中的一些杂乱代码
import re#引用re'''string = "shentouyun"#定义整段 , 普通字符作为原子pat = "yun"#提取yunret = re.search(pat,string)#第一个参数为提取 , 第二个为整个字段print(ret)#输出matchsubsearch全局匹配string = "SheSnTouYunYS"pat="s.*S"#贪婪模式找到最后一个spat1="s.*?S"#懒惰模式,特征为? , 找到一个y就不往下找了ret = re.search(pat,string,re.I)ret1 = re.search(pat1,string,re.I)print(ret)print(ret1)'''首先预热下 , 爬取豆瓣首页
导入urllib库下的request
import urllib.request使用下urlopen打开网站返回html
urllib.request.urlopen("https://www.douban.com/")读一下看看拿到了什么东西 , 使用read( ) , 并给douban保存方便再GUI里调用
douban = urllib.request.urlopen("https://www.douban.com/").read()可以独立尝试 , 会非常卡 。简单点是用len看字节
>>> len(douban)105653
爬取豆瓣评论
导入正则模块(re)
import re写了个例子
#豆瓣评论爬取小例子import urllib.requestimport redouban = urllib.request.urlopen("https://movie.douban.com/subject/27199913/?from=showing").read().decode("UTF-8")pat = '<span class="short">.*?</span>'rst = re.compile(pat).findall(douban)print(rst[0])引用decode("UTF-8")对其解码为utf-8
正则为
<span class="short">(.*?)</span>如何写正则与本例的细节
打开网站
https://movie.douban.com/subject/27199913/?from=showing右键源代码
发现评论格式为
<span class="short">就是山西版本的《两杆大烟枪》或者说《疯狂的石头》 , 将山西风光和特色与影片融合的很好 , 虽然还是有所瑕疵 , 也难逃一些俗套烂大街的剧情和段子 , 但是还可以 。</span>所有评论被标签包裹 , 可以进行抓取 , 使用懒惰模式进行操作 。
<span class="short">.*?</span>"."全匹配 , 其细节为标签里有双引号 , 我们再写正则时使用单引号括起来 , 不要再使用双引号了 。
写循环把东西都显示出来
for i in range(0,len(rst)): print(rst[i])运行为
>>> ================================ RESTART ================================>>>['一直很喜欢这种结构的电影 , 一圈圈地放出线团 , 再一段段收回 , 圆融又宿命 。以山西籍为主的演员都挺走心的 , 生活的鸡飞狗走很是活灵活现 , 而且骆达华的出场太惊喜 。导演说是改编太贵 , 索性自己写 。但要是看过《提着心吊着胆》 , 会发现许多元素重合度很高 , 比如生意惨淡的饭店、存在问题的夫妇、警察、笨贼、拜金女、装大款……就连意外之财也是丢在饭店里 。电影结尾顾虑较多 , 但整体完成度与幽默感不差 。@平遥 , 特意买票支持 , 却来...', '算是一部跟期待打平的作品吧 , 中规中矩 , 没有惊艳 , 王大治倒是真有那么几分长相之外的亮点 。故事一圈圈闪回 , 重复的部分有点多 , 生怕观众跟不上这个倒叙+插叙的节奏似的 。四川话河南话陕西话山西话一锅烩 , 泱泱大中华式的热闹 。想要揭示人心叵测 , 但终归是浅了一点 。【平遥电影节2018.10.19', '这种结构挺好', '审美疲劳 , 这种太多了 , 都大同小异 。从每组人物的角度 , 反复讲同一个事 。国产电影里的歹徒劫匪都是来搞笑的 , 都是** , 呵呵 。', '巧就巧在结构上 。']一直很喜欢这种结构的电影 , 一圈圈地放出线团 , 再一段段收回 , 圆融又宿命 。以山西籍为主的演员都挺走心的 , 生活的鸡飞狗走很是活灵活现 , 而且骆达华的出场太惊喜 。导演说是改编太贵 , 索性自己写 。但要是看过《提着心吊着胆》 , 会发现许多元素重合度很高 , 比如生意惨淡的饭店、存在问题的夫妇、警察、笨贼、拜金女、装大款……就连意外之财也是丢在饭店里 。电影结尾顾虑较多 , 但整体完成度与幽默感不差 。@平遥 , 特意买票支持 , 却来...算是一部跟期待打平的作品吧 , 中规中矩 , 没有惊艳 , 王大治倒是真有那么几分长相之外的亮点 。故事一圈圈闪回 , 重复的部分有点多 , 生怕观众跟不上这个倒叙+插叙的节奏似的 。四川话河南话陕西话山西话一锅烩 , 泱泱大中华式的热闹 。想要揭示人心叵测 , 但终归是浅了一点 。【平遥电影节2018.10.19这种结构挺好审美疲劳 , 这种太多了 , 都大同小异 。从每组人物的角度 , 反复讲同一个事 。国产电影里的歹徒劫匪都是来搞笑的 , 都是** , 呵呵 。巧就巧在结构上 。>>>
推荐阅读
- Python appium搭建app自动化测试环境
- 2个实例搞懂Python循环嵌套——九九乘法表以及质数的索引
- python3+ 和 Python2+的一些区别
- 讲讲Python爬虫绕过登录的小技巧
- 一文让你理解 Lambda 表达式
- 微信“拍一拍”,竟然可以使用Python实现
- Python中的日期操作总结大全
- 如何用Python爬取移动端数据
- 初学 Python 需要安装哪些软件?
- 利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
