NLP中的文本分析和特征工程( 七 ) _NLP

文章插图

主题建模Genism包专门用于主题建模。主题模型是一种统计模型，用于发现出现在文档集合中的抽象“主题” 。
我将展示如何使用LDA(Latent Dirichlet Allocation)提取主题:生成统计模型，允许使用未观察到的组来解释观察集，这些组可以解释为什么数据的某些部分是相似的。基本上，文档被表示为潜在主题的随机混合，其中每个主题的特征是分布在单词上。
让我们看看我们可以从科技新闻中提取哪些主题。我需要指定模型必须聚类的主题数量，我将尝试使用3个:
y = "TECH"corpus = dtf[dtf["y"]==y]["text_clean"] ## pre-process corpus lst_corpus = [] for string in corpus: lst_words = string.split() lst_grams = [" ".join(lst_words[i:i + 2]) for i in range(0, len(lst_words), 2)] lst_corpus.append(lst_grams)## map words to an id id2word = gensim.corpora.Dictionary(lst_corpus)## create dictionary word:freq dic_corpus = [id2word.doc2bow(word) for word in lst_corpus] ## train LDA lda_model = gensim.models.ldamodel.LdaModel(corpus=dic_corpus, id2word=id2word, num_topics=3, random_state=123, update_every=1, chunksize=100, passes=10, alpha='auto', per_word_topics=True) ## output lst_dics = [] for i in range(0,3): lst_tuples = lda_model.get_topic_terms(i) for tupla in lst_tuples: lst_dics.append({"topic":i, "id":tupla[0], "word":id2word[tupla[0]], "weight":tupla[1]}) dtf_topics = pd.DataFrame(lst_dics, columns=['topic','id','word','weight']) ## plot fig, ax = plt.subplots() sns.barplot(y="word", x="weight", hue="topic", data=https://www.isolves.com/it/ai/2020-06-19/dtf_topics, dodge=False, ax=ax).set_title('Main Topics') ax.set(ylabel="", xlabel="Word Importance") plt.show()

文章插图

仅仅用3个主题来概括这6年的内容可能有点难，但正如我们所看到的，所有关于苹果公司的内容都以同样的主题结束。
结论本文演示了如何使用NLP分析文本数据并为机器学习模型提取特征。
我展示了如何检测数据使用的语言，以及如何预处理和清除文本。然后我解释了长度的不同度量，用Textblob进行了情绪分析，并使用SpaCy进行命名实体识别。最后，我解释了使用scikiti - learning的传统词频方法与使用Gensim的现代语言模型的区别。
作者:Mauro Di Pietro
deephub翻译组

NLP中的文本分析和特征工程( 七 )

推荐阅读

【鼻窦炎】鼻窦炎严重会怎么样

产后怎么减肥■产后怎么减肥最有效

红薯怎么保存不会烂掉红薯如何保存才不会烂掉

扎哈维|重磅！富力对一线队名单进行了重大调整，金靴射手被正式撤出名单

市场营销的核心是汽车市场营销微观环境

如果一个人从小到大只获得正向反馈（想要的都得到，想做的都成功），他是否能获得「反思」的能力？

鹏飞奇闻变得年轻漂亮，关键秘诀就藏在我们的细胞里，想要延年益寿

电影|漫威和DC联动滚导想拍小丑女和格鲁特电影？本人回应

今年国庆高校放几天假？清华已明确：3天

「龙江六道尖」但拿手机的方式代表了一个人性格，看看你属于哪方面，手机普遍了

晚安曲推荐|著名导演邀请吴彦祖，欲拍《赌王传》，遭何超仪大骂有违道德，原创

陈晓|古装帅哥热度榜：肖战第一、胡歌第五、王一博第八，王鹤棣落榜

金属|章源钨业涨停，领涨稀有金属行业

沙盖是什么沙盖是什么意思

龙丹妮手中最大一张牌，美国豪宅堪比博物馆，国内老家还有瞭望塔

冰封千里266|要买电视的朋友了，可以仔细看我的文章，双11要来了

『央视财经』跌幅1.06%；央视50指数报6888.00点，跌幅0.82%，收盘：沪指报2808.53点

品恒星语|您的“贵人”已到家中，别让他们失望！，属羊人：快行动起来

ZAKER|未来2年内开建！，34.3GW平价风电项目

光明网|重温抗日战争伟大历史《海报里的英雄》开播在即