精英联盟总队|带大家写一波微信公众号的爬取！谁说微信爬不了的( 二 ) 开发工具python版本：3.6.4相关模块：p

前面三个可变参数都好解决，后面两个参数似乎就比较难办了。不过经过测试，我们可以发现pass_ticket其实是一个可有可无的参数，所以我们可以不管它。而appmsg_token的有效期至少有10几个小时，这段时间足够我们爬取目标公众号的所有文章了，所以直接复制过来就可以了，没必要浪费时间分析这玩意(随便想想也应该知道白嫖腾讯肯定没那么容易的T_T) 。写个代码简单测试一下：
import requestssession = requests.Session()session.headers.update(headers)session.cookies.update(cookies)profile_url = '前面抓包得到的请求地址'biz = 'MzAwNTA5NTYxOA=='pass_ticket = ''appmsg_token = '1055_YAmuAw2QG7dM3aTwSVZVqgtRdct6ilAMTwlz7g'params = {'action': 'getmsg','__biz': biz,'f': 'json','offset': '0','count': '10','is_ok': '1','scene': '123','uin': '777','key': '777','pass_ticket': pass_ticket,'wxtoken': '','appmsg_token': appmsg_token,'x5': '0'}res = session.get(profile_url, params=params, verify=False)print(res.text)运行之后可以发现返回的数据如下：
看来是没啥问题，重新调整封装一下代码，就可以爬取该公众号所有文章的链接啦。具体而言，核心代码实现如下：
'''获得所有文章的链接'''def __getArticleLinks(self):print('[INFO]: 正在获取目标公众号的所有文章链接...')fp = open('links_tmp.json', 'w', encoding='utf-8')article_infos = {}params = {'action': 'getmsg','__biz': self.cfg.biz,'f': 'json','offset': '0','count': '10','is_ok': '1','scene': '123','uin': '777','key': '777','pass_ticket': self.cfg.pass_ticket,'wxtoken': '','appmsg_token': self.cfg.appmsg_token,'x5': '0'}while True:res = self.session.get(self.profile_url, params=params, verify=False)res_json = res.json()can_msg_continue = res_json.get('can_msg_continue', '')next_offset = res_json.get('next_offset', 10)general_msg_list = json.loads(res_json.get('general_msg_list', '{}'))params.update({'offset': next_offset})for item in general_msg_list['list']:app_msg_ext_info = item.get('app_msg_ext_info', {})if not app_msg_ext_info: continuetitle = app_msg_ext_info.get('title', '')content_url = app_msg_ext_info.get('content_url', '')if title and content_url:article_infos[title] = content_urlif app_msg_ext_info.get('is_multi', '') == 1:for article in app_msg_ext_info.get('multi_app_msg_item_list', []):title = article.get('title', '')content_url = article.get('content_url', '')if title and content_url:article_infos[title] = content_urlif can_msg_continue != 1: breakelse: time.sleep(1+random.random())json.dump(article_infos, fp)fp.close()print('[INFO]: 已成功获取目标公众号的所有文章链接, 数量为%s...' % len(list(article_infos.keys())))运行之后，我们就可以获得目标公众号的所有文章链接啦：

现在，我们只需要根据这些文章链接来爬取文章内容就行啦。这里我们借助python的第三方包pdfkit来实现将每篇文章都保存为pdf格式的文件。具体而言，核心代码实现如下：

精英联盟总队|带大家写一波微信公众号的爬取！谁说微信爬不了的( 二 )

推荐阅读

强调安全生产的诗句?关于安全生产的古诗四句

情感调解|小姑子借了30万赖着不还，上门讨要惹恼婆婆，差点结束8年婚姻

影迷宝爸给女儿取名“子怡”，还沾沾自喜，媳妇发飙倒着念试试

住院|意大利单日新冠病亡人数创新低

海航三亚飞北京航班风挡裂纹返航：未造成客舱失压

岳云鹏|岳云鹏雷佳音“极挑”抱团《未知的餐桌》变跑挑相争

使用物联网降低维护成本的四种策略

藏红花泡水喝的功效,藏红花泡水喝的功效与作用及禁忌

『减重』胃旁路手术治疗肥胖型2型糖尿病效果怎么样

孕妇吃了胡椒粉怎么办

中国新闻网|进博声音：中国对外投资规模将持续扩大

工人日报|中国冰淇淋市场总量超千亿元还有哪些机会可挖掘？

北青网综合|硬核！路边消防栓爆裂狂喷水，小伙一屁股坐下，人肉压水花

『iPhone』2000预算手机怎么选，96%以上的人都会选择这四款

乐居网|外出最好带雨具，今入末伏暑渐消

特朗普：何时由媒体宣布下任总统？-特朗普还有戏吗-美国大选2020结果公布时间

[神奇的老外]澳洲虐待狂把折磨年轻女子当娱乐 逼其吞食呕吐物 用丙酮烟头烧她

茜茜看星座|格林为詹姆斯回怼皮尔斯,事实上,格林和詹姆斯的关系比想象中好

『婴儿腹泻便秘』婴儿腹泻便秘吃这个最管用

都市民生汇|被阻后用英文回怼，惹怒网友：装什么外国人，女子地铁乱吐瓜子