Python可复用函数的六种最佳实践( 二 ) _Python

from pathlib import Path# 从train目录下的文件中提取文本t_train = []for file_path in Path(raw_train_path).glob("*.xml"):list_train_doc_1 = [r.text for r in ET.parse(file_path).getroot()[0]]train_doc_1 = " ".join(t for t in list_train_doc_1)t_train.append(train_doc_1)t_train_docs = " ".join(t_train)# 从测试目录的文件中提取文本t_test = []for file_path in Path(raw_test_path).glob("*.xml"):list_test_doc_1 = [r.text for r in ET.parse(file_path).getroot()[0]]test_doc_1 = " ".join(t for t in list_test_doc_1)t_test.append(test_doc_1)t_test_docs = " ".join(t_test)我们可以通过将重复的代码合并到一个名为extract_texts_from_multiple_files的单一函数中来消除重复，该函数从指定位置的多个文件中提取文本。
def extract_texts_from_multiple_files(folder_path) -> str:
all_docs = []for file_path in Path(folder_path).glob("*.xml"):list_of_text_in_one_file = [r.text for r in ET.parse(file_path).getroot()[0]]text_in_one_file = " ".join(list_of_text_in_one_file)all_docs.append(text_in_one_file)return " ".join(all_docs)现在你可以使用这个功能从不同的地方提取文本，而不需要重复编码。
t_train = extract_texts_from_multiple_files(raw_train_path)t_test= extract_texts_from_multiple_files(raw_test_path)一个层次的抽象抽象水平是指一个系统的复杂程度。高层次指的是对系统更概括的看法，而低层次指的是系统更具体的方面。
在一个代码段内保持相同的抽象水平是一个很好的做法，使代码更容易理解。
以下函数证明了这一点：
def extract_texts_from_multiple_files(folder_path) -> str:all_docs = []for file_path in Path(folder_path).glob("*.xml"):list_of_text_in_one_file = [r.text for r in ET.parse(file_path).getroot()[0]]text_in_one_file = " ".join(list_of_text_in_one_file)all_docs.append(text_in_one_file)return " ".join(all_docs)该函数本身处于较高层次，但 for 循环内的代码涉及与XML解析、文本提取和字符串操作有关的较低层次的操作。
为了解决这种抽象层次的混合，我们可以将低层次的操作封装在extract_texts_from_each_file函数中：
def extract_texts_from_multiple_files(folder_path: str) -> str:all_docs = []for file_path in Path(folder_path).glob("*.xml"):text_in_one_file = extract_texts_from_each_file(file_path)all_docs.append(text_in_one_file)return " ".join(all_docs)def extract_texts_from_each_file(file_path: str) -> str:list_of_text_in_one_file = [r.text for r in ET.parse(file_path).getroot()[0]]return " ".join(list_of_text_in_one_file)这为文本提取过程引入了更高层次的抽象，使代码更具可读性。
描述性的名称一个函数的名字应该有足够的描述性，使用户不用阅读代码就能理解其目的。长一点的、描述性的名字比模糊的名字要好。例如，命名一个函数get_texts就不如命名为extract_texts_from_multiple_files来得清楚。
然而，如果一个函数的名字变得太长，比如retrieve_data_extract_text_and_save_data，这说明这个函数可能做了太多的事情，应该拆分成更小的函数。
少于四个参数随着函数参数数量的增加，跟踪众多参数之间的顺序、目的和关系变得更加复杂。这使得开发人员难以理解和使用该函数。
def main(url: str,zip_path: str,raw_train_path: str,raw_test_path: str,processed_train_path: str,processed_test_path: str,) -> None:get_raw_data(url, zip_path)t_train, t_test = get_train_test_docs(raw_train_path, raw_test_path)save_train_test_docs(processed_train_path, processed_test_path, t_train, t_test)为了提高代码的可读性，你可以用数据类或Pydantic模型将多个相关参数封装在一个数据结构中。
from pydantic import BaseModelclass RawLocation(BaseModel):url: strzip_path: strpath_train: strpath_test: strclass ProcessedLocation(BaseModel):path_train: strpath_test: strdef main(raw_location: RawLocation, processed_location: ProcessedLocation) -> None:get_raw_data(raw_location)t_train, t_test = get_train_test_docs(raw_location)save_train_test_docs(processed_location, t_train, t_test)我如何写这样的函数？在编写Python函数时，你不需要记住所有这些最佳实践。衡量一个Python函数质量的一个很好的指标是它的可测试性。如果一个函数可以很容易地被测试，这表明该函数是模块化的，执行单一的任务，并且没有重复的代码。
def save_data(processed_path: str, processed_data: str) -> None:with open(processed_path, "w") as f:f.write(processed_data)def test_save_data(tmp_path):processed_path = tmp_path / "processed_data.txt"processed_data = https://www.isolves.com/it/cxkf/yy/Python/2023-08-28/"Sample processed data"save_data(processed_path, processed_data)assert processed_path.exists()assert processed_path.read_text() == processed_data


上一页
1
2
3
下一页
		  	






























推荐阅读

           
                  
              
                  底妆|査先生花一万多祛斑 一年过去没效果？ 
                
                   
                
              
            

                  
              
                  袁帅|半是蜜糖半是伤：又是一部甜宠剧，甜到你了吗？ 
                
                   
                
              
            

                  
              
                  通用流量是什么意思,专用流量是什么意思 通用流量是什么意思 
                
                   
                
              
            

                  
              
                  教大家如何选购春茶,收藏升值用紫砂壶应如何选购 
                
                   
                
              
            

                  
              
                  北漂现状是怎样的 
                
                   
                
              
            

                  
              
                  纽约发生持刀伤人事件 官方：至少5人受伤送医 
                
                   
                
              
            

                  
              
                  鹏举说历史|日本侵占3个月就撤：顶不住了！，我国这一省抗日战争没出过一个汉奸 
                
                   
                
              
            

                  
              
                  怀孕可以吃巴戟天吗？怀孕吃什么比较好 
                
                   
                
              
            

                  
              
                  法术|王者荣耀：新赛季装备分析，新增装备是否有用，冷门装备将崛起 
                
                   
                
              
            

                  
              
                  央视新闻|趁“囍”打劫？警方出手了 
                
                   
                
              
            

                  
              
                  北城人文|年迈父亲却在工地开车，坦言：不愿用他一分钱，李佳琦年收入2亿 
                
                   
                
              
            

                  
              
                  微信上线拍一拍功能|【拍一拍攻略】微信升级拍一拍新功能 微信拍一拍有什么用?你会修改后缀吗? 
                
                   
                
              
            

                  
              
                  找人刷单成地下产业链 揭秘电商销量背後的怪现象 
                
                   
                
              
            

                  
              
                  哪些人不宜食用桃脯？桃脯的副作用有哪些? 
                
                   
                
              
            

                  
              
                  迷彩前沿|7秒打光1千万，航母最后一道防线：此武器一分钟倾泻1.1万发子弹 
                
                   
                
              
            

                  
              
                  特朗普@除了开战别无选择？特朗普公然威胁：军队已整装待发！ 
                
                   
                
              
            

                  
              
                  太原：老旧柴油车报废最高可享3万元补贴 
                
                   
                
              
            

                  
              
                  太极拳：太极拳的松沉劲怎样才能练出来？ 
                
                   
                
              
            

                  
              
                  桂花玫瑰茶如何做,玫瑰花茶到底是什么茶 
                
                   
                
              
            

                  
              
                  怎么做好网络直播 
                
                   
                
              
            

          

手把手将Visual Studio Code变成Python开发神器 

OpenHarmony组件复用示例 

AI可以读取人心了 心中的小秘密还能藏多久？ 

将 Pandas 换为交互式表格的 Python 库 

Django和Flask：Python Web开发的不同选择 

肉松面包可以加热吗 肉松面包能加热吗 

微信网名女生小清新好听 微信网名女生小清新可爱 

《披荆斩棘》大爆三宝，赵丽颖的可靠，高启盛的后劲，林志颖的脸 

秋葵切开后可以放冰箱第二天煮吗 秋葵切开了可以放多久 

粉丝可以不泡水直接煮吗

Python可复用函数的六种最佳实践( 二 )

推荐阅读

底妆|査先生花一万多祛斑一年过去没效果？

袁帅|半是蜜糖半是伤：又是一部甜宠剧，甜到你了吗？

通用流量是什么意思,专用流量是什么意思通用流量是什么意思

教大家如何选购春茶,收藏升值用紫砂壶应如何选购

北漂现状是怎样的

纽约发生持刀伤人事件官方：至少5人受伤送医

鹏举说历史|日本侵占3个月就撤：顶不住了！，我国这一省抗日战争没出过一个汉奸

怀孕可以吃巴戟天吗？怀孕吃什么比较好

法术|王者荣耀：新赛季装备分析，新增装备是否有用，冷门装备将崛起

央视新闻|趁“囍”打劫？警方出手了

北城人文|年迈父亲却在工地开车，坦言：不愿用他一分钱，李佳琦年收入2亿

微信上线拍一拍功能|【拍一拍攻略】微信升级拍一拍新功能微信拍一拍有什么用?你会修改后缀吗?

找人刷单成地下产业链揭秘电商销量背後的怪现象

哪些人不宜食用桃脯？桃脯的副作用有哪些?

迷彩前沿|7秒打光1千万，航母最后一道防线：此武器一分钟倾泻1.1万发子弹

特朗普@除了开战别无选择？特朗普公然威胁：军队已整装待发！

太原：老旧柴油车报废最高可享3万元补贴

太极拳：太极拳的松沉劲怎样才能练出来？

桂花玫瑰茶如何做,玫瑰花茶到底是什么茶

怎么做好网络直播