NLP中的文本分析和特征工程( 二 ) _NLP

txt = dtf["text"].iloc[0]print(txt, " --> ", langdetect.detect(txt))

文章插图

让我们为整个数据集添加一列带有语言信息:
dtf['lang'] = dtf["text"].apply(lambda x: langdetect.detect(x) if x.strip() != "" else "")dtf.head()

文章插图

dataframe现在有一个新列。使用相同的代码从以前，我可以看到有多少不同的语言:

文章插图

即使有不同的语言，英语也是主要的。所以我打算用英语过滤新闻。
dtf = dtf[dtf["lang"]=="en"]文本预处理数据预处理是准备原始数据使其适合于机器学习模型的阶段。对于NLP，这包括文本清理、停止词删除、词干填塞和词元化。
文本清理步骤根据数据类型和所需任务的不同而不同。通常，字符串被转换为小写字母，并且在文本被标记之前删除标点符号。标记化是将一个字符串分割成一个字符串列表(或“记号”)的过程。
让我们以第一个新闻标题为例:

print("--- original ---")print(txt)print("--- cleaning ---") txt = re.sub(r'[^ws]', '', str(txt).lower().strip()) print(txt)print("--- tokenization ---") txt = txt.split() print(txt)

文章插图

我们要保留列表中的所有标记吗?不需要。实际上，我们希望删除所有不提供额外信息的单词。在这个例子中，最重要的单词是“song”，因为它可以为任何分类模型指明正确的方向。相比之下，像“and”、“for”、“the”这样的词没什么用，因为它们可能出现在数据集中的几乎每一个观察结果中。这些是停止词的例子。这个表达通常指的是一种语言中最常见的单词，但是并没有一个通用的停止词列表。
我们可以使用NLTK(自然语言工具包)为英语词汇创建一个通用停止词列表，它是一套用于符号和统计自然语言处理的库和程序。
lst_stopwords = nltk.corpus.stopwords.words("english")lst_stopwords

文章插图

让我们删除第一个新闻标题中的停止词:
print("--- remove stopwords ---")txt = [word for word in txt if word not in lst_stopwords] print(txt)

文章插图

我们需要非常小心停止词，因为如果您删除错误的标记，您可能会丢失重要的信息。例如，“will”这个词被删除，我们丢失了这个人是will Smith的信息。记住这一点，在删除停止词之前对原始文本进行一些手工修改可能会很有用(例如，将“Will Smith”替换为“Will_Smith”) 。
既然我们有了所有有用的标记，我们就可以应用单词转换了。词根化和词元化都产生单词的词根形式。区别在于stem可能不是一个实际的单词，而lemma是一个实际的语言单词(词干词干通常更快) 。这些算法都由NLTK提供。

print("--- stemming ---")ps = nltk.stem.porter.PorterStemmer() print([ps.stem(word) for word in txt])print("--- lemmatisation ---") lem = nltk.stem.wordnet.WordNetLemmatizer() print([lem.lemmatize(word) for word in txt])

文章插图

正如您所看到的，一些单词发生了变化:“joins”变成了它的根形式“join”，就像“cups”一样。另一方面，“official”只是在词干“offici”中发生了变化，而“offici”不是一个单词，它是通过删除后缀“-al”而创建的。
我将把所有这些预处理步骤放入一个函数中，并将其应用于整个数据集。

'''Preprocess a string. :parameter     :param text: string - name of column containing text     :param lst_stopwords: list - list of stopwords to remove     :param flg_stemm: bool - whether stemming is to be applied     :param flg_lemm: bool - whether lemmitisation is to be applied :return     cleaned text ''' def utils_preprocess_text(text, flg_stemm=False, flg_lemm=True, lst_stopwords=None):     ## clean (convert to lowercase and remove punctuations and characters and then strip)     text = re.sub(r'[^ws]', '', str(text).lower().strip())                  ## Tokenize (convert from string to list)     lst_text = text.split()    ## remove Stopwords     if lst_stopwords is not None:         lst_text = [word for word in lst_text if word not in                      lst_stopwords]                      ## Stemming (remove -ing, -ly, ...)     if flg_stemm == True:         ps = nltk.stem.porter.PorterStemmer()         lst_text = [ps.stem(word) for word in lst_text]                      ## Lemmatisation (convert the word into root word)     if flg_lemm == True:         lem = nltk.stem.wordnet.WordNetLemmatizer()         lst_text = [lem.lemmatize(word) for word in lst_text]                  ## back to string from list     text = " ".join(lst_text)     return text
上一页
1
2
3
4
5
6
下一页
		  	






























推荐阅读

           
                  
              
                  新华网|蒙古国报告一例疑似鼠疫病例 
                
                   
                
              
            

                  
              
                  lol资讯君|一把影刃走天下，曹操崛起后依旧无人问津？张大仙开发攻速流套路 
                
                   
                
              
            

                  
              
                  密码小窍门的生活|但是经济被摧毁了，美国：科技改变了生活 
                
                   
                
              
            

                  
              
                   感受|在这里，感受国粹的无限魅力，聆听起承转合诉说的古老故事~ 
                
                   
                
              
            

                  
              
                  『酷卡电竞说』《骑砍2》中你以为最重要的是任务？其实游戏中最重要的是这个 
                
                   
                
              
            

                  
              
                   智慧：山上无任何支撑，跨山大桥如何修建的，看完不得不佩服工 
                
                   
                
              
            

                  
              
                  韩德君|广东要小心点了！辽宁真核场均29+11，直击薄弱点，恐重返国家队 
                
                   
                
              
            

                  
              
                  Mac电脑■郭明錤：许多2021款苹果Mac产品将采用自家ARM处理器 
                
                   
                
              
            

                  
              
                  华为还有后招！放出了一只“狼”，打得老美“猝不及防”！ 
                
                   
                
              
            

                  
              
                  互联网乱侃秀小米坐实广告公司？2019年广告收入107亿，全国Top10 
                
                   
                
              
            

                  
              
                  s10世界赛|JKL是国服第一德莱文？文森特表示不服：我不用15分57秒 
                
                   
                
              
            

                  
              
                  罗斯|被低估的08届多厉害？他被称上限乔丹下限科比，成员都有哪些呢？ 
                
                   
                
              
            

                  
              
                  饬字怎么读.什么意思. 驰什么意思 
                
                   
                
              
            

                  
              
                  娱乐趣闻汪峰化身黏人精守护一旁，章子怡产后与丈夫外出会友 
                
                   
                
              
            

                  
              
                  宝马|宝马确认纯电MINI敞篷版量产：预计联合长城共同打造 
                
                   
                
              
            

                  
              
                  「猫咪」她摔下山昏迷，猫咪叫醒后并为其指路，这些救人行为让我大吃一惊！ 
                
                   
                
              
            

                  
              
                  孕妇专用护肤品@孕妇专用护肤品十大排行榜是哪些品牌 
                
                   
                
              
            

                  
              
                  少年大钦差|16年了，《少年大钦差》2位演员今昔对比，容颜难变，事业反差大 
                
                   
                
              
            

                  
              
                  中金网|随后恐慌指数却走高，市场情绪反转再反转新冠药物传佳音美元大跌 
                
                   
                
              
            

                  
              
                  海外网|美议员：中国受人尊敬，因疫情起诉中国是巨大错误 
                
                   
                
              
            

          

茶在生活中的其他用处,玫瑰花茶泡法技巧 

把MySQL中的各种锁及其原理都画出来 

互动直播中的前端技术——即时通讯 

茶叶在旅行中的作用,白茶的保健功效介绍 

敦煌月牙泉其中的水,辨证茶疗与疾病的关系 

人的身材在一天中的什么时候最高？ 

一款强大的本地文件内容搜索软件，可搜索文件中的文字 

图解 Go 微服务中的熔断器和重试 

血缘关系在中国文化中的作用 

Netty 中的内存分配浅析