使用Python进行文本分析-将PDF文件多进程批量处理为csv文件( 二 ) _Python

convertPDF.py#!/usr/bin/env python3"""Script to convert PDFs to text files."""importunicodedata, os, pdf2txt, datetimeimport multiprocessingdef convertPDFToText(i, ID, newDir, fileNamePDF):print('Trying to convert: ' + str(i) + ', ' + ID)# 输出正在尝试转换的文件信息try:pdf2txt.main(['-o', newDir + '/' + ID + '.txt', fileNamePDF])# 调用pdf2txt.main来转换PDF为文本print('Successfully converted: ' + ID)# 转换成功时的输出except Exception as e:print('Failed to convert: ' + ID + f', Error: {e}')# 转换失败时的输出def process_pdfs(pdf_list):with multiprocessing.Pool(20) as pool:# 创建一个包含20个进程的进程池pool.starmap(convertPDFToText, pdf_list)# 使用starmap来并行处理pdf_list中的每个元素，每个元素都是一个元组，它将被解包为convertPDFToText的参数if __name__ == '__main__':directory = '../../Data/PDF/work'os.chdir(directory)# 更改当前工作目录至PDF文件目录# 指定保存转换后文件的目录newDir = '../TXT/work'# os.makedirs(newDir)# 创建新目录（如果需要的话）print('Placing converted files in: ' + newDir)# 输出转换后文件将被放置的目录pdf_list = []# 创建一个空列表，用于保存将传递给convertPDFToText的参数元组i = 0# 初始化计数器for fileNamePDF in os.listdir('./'):# 遍历当前目录中的所有文件i += 1# 计数器递增if fileNamePDF.find(".pdf") == -1:# 如果文件不是PDF ，跳过continueID = fileNamePDF[:-4]# 从文件名中获取ID（去掉.pdf后缀）if os.path.isfile('../TXT/' + ID + '.txt'):# 如果已经存在对应的文本文件，跳过continuepdf_list.Append((i, ID, newDir, fileNamePDF))# 将参数元组添加到pdf_list中process_pdfs(pdf_list)# 调用process_pdfs函数，传递pdf_list以并行处理PDF文件
【使用Python进行文本分析-将PDF文件多进程批量处理为csv文件】

使用Python进行文本分析-将PDF文件多进程批量处理为csv文件( 二 )

推荐阅读

山东鲁能|曾同收鲁能和北京邀请，首秀仅两月就被中超国安放弃，23岁失业

女性养生|女性不想显老，不妨多吃四种食物，延年益寿，延缓衰老，试试看

娱乐与趣闻|G2零封GEN！阿P虾仁猪心直接坦言轻松获胜是因为中路差距

谈古说今知时尚|完全不给别人留活路的女人，教科书级别穿搭，超模肯豆又闯祸

TheraTrolyte技术助力HCAT氢子猫守护口腔健康

央视新闻客户端|毒品无处可藏！云南保山警方破获特大牛肉藏毒案缴毒150公斤

花草|家里常见的7种有毒花草，养护需小心，摆放有讲究

小米科技|“双十一”天猫家电70个品牌成交额过亿，八成是国货

关于进口冷链食品，山东多地发布疫情防控通告！吴尊友称冷链进口产品或为我国疫情源头

花草中的“潜力股”，学会长久持有，会越来越值钱

防弹少年团|韩娱！SKZ接班防弹少年团确定！MAMA投票仅差0.2%超越BTS！

IT之家 Go 2上架全新酷睿m3 WiFi版，4988元，微软Surface

【法国】听说Get了它，爱你的人会排队排到法国

移动,电信,联通,哪个运营商更好移动联通电信运营商哪个好

吴昕|吴昕瘦了好多，现身杜海涛火锅店，路人生图37岁状态太真实

梦见很多鱼和黄鳝梦见黄鳝和鱼是什么意思

行业短信和营销短信的区别?

素素娱乐|霍启刚的细心举动温暖人心，郭晶晶带妈妈和孩子送别吕燕妮

母乳喂养的新观念

育儿张医师|那你知道哪些是适合看中医的吗？，总是有大大小小的不舒服