引领先锋|基于深度学习的文本数据特征提取方法之Word2Vec(一)( 五 ) 作者：Dipanjan(DJ)Sarkar编译：ronghu

import keras.backend as K from keras.models import Sequential from keras.layers import Dense, Embedding, Lambda# build CBOW architecture cbow = Sequential() cbow.add(Embedding(input_dim=vocab_size, output_dim=embed_size, input_length=window_size*2)) cbow.add(Lambda(lambda x: K.mean(x, axis=1), output_shape=(embed_size,))) cbow.add(Dense(vocab_size, activation='softmax')) cbow.compile(loss='categorical_crossentropy', optimizer='rmsprop')# view model summary print(cbow.summary())# visualize model structure from IPython.display import SVG from keras.utils.vis_utils import model_to_dotSVG(model_to_dot(cbow, show_shapes=True, show_layer_names=False, rankdir='TB').create(prog='dot', format='svg'))
如果你对上述深度学习模型的形象化仍有困难。可以看看下图：
训练模型
在完整的语料库上运行这个模型需要相当多的时间，所以我只运行了5个epochs 。你可以利用以下代码，并在必要时训练更多的时间。
for epoch in range(1, 6): loss = 0. i = 0 for x, y in generate_context_word_pairs(corpus=wids, window_size=window_size, vocab_size=vocab_size): i += 1 loss += cbow.train_on_batch(x, y) if i % 100000 == 0: print('Processed {} (context, word) pairs'.format(i))print('Epoch:', epoch, '\tLoss:', loss) print()Epoch: 1 Loss: 4257900.60084 Epoch: 2 Loss: 4256209.59646 Epoch: 3 Loss: 4247990.90456 Epoch: 4 Loss: 4225663.18927 Epoch: 5 Loss: 4104501.48929注意：运行这个模型是计算量很大的，如果使用GPU训练，会好一点。我在AWS的**p2上训练过这个。用的是Tesla K80 GPU ，它花了我近1.5小时，只有5个epochs！
一旦这个模型被训练好，相似的单词应该就有相似的基于嵌入的权值，我们可以测试一下相似性。
获取词嵌入
要为整个词汇表获取词嵌入，可以利用下面的代码从嵌入层提取。我们不接受位置为0的嵌入，因为它属于 (PAD)，这并不是一个真正的单词。
weights = cbow.get_weights()[0] weights = weights[1:] print(weights.shape)pd.DataFrame(weights, index=list(id2word.values())[1:]).head()
可以清楚地看到，正如前面的输出所描述的，每个单词都有一个dense的大小为“(1x100)”的嵌入。让我们尝试根据这些嵌入为感兴趣的特定单词找到一些上下文相似的单词。为此，我们基于dense的嵌入向量，在我们的词汇表中建立一个成对的距离矩阵，然后根据最短的欧氏距离找出感兴趣的每个单词的n个最近邻。
from sklearn.metrics.pairwise import euclidean_distances# compute pairwise distance matrix distance_matrix = euclidean_distances(weights) print(distance_matrix.shape)# view contextually similar words similar_words = {search_term: [id2word[idx] for idx in distance_matrix[word2id[search_term]-1].argsort()[1:6]+1] for search_term in ['god', 'jesus', 'noah', 'egypt', 'john', 'gospel', 'moses','famine']}similar_words

引领先锋|基于深度学习的文本数据特征提取方法之Word2Vec(一)( 五 )

推荐阅读

离婚前转移股权，法院判决合同无效

环球网|“国潮手艺”，遇见广作新魅力

李沁|李沁录节目发现领口太大，被男嘉宾围着时，她的救场方式不得不服

新华网|印尼单日新增新冠确诊病例数创新高

平凉微电视|【憾悟】生活的原貌就是五彩缤纷的这就是生活的一段憧憬一路向往

百乐体育|比赛薪水全部捐赠，两个决定太显格局，爱了！霍华德决定参加复赛

ZAKER|两桌人打作一团竟端起涮锅互相泼，因嫌女子上厕所太长引发争执

“全民k歌”课题研讨会於昆明举办数字工具如何影响社会交往和社

孔雀石佩戴禁忌孔雀石佩戴禁忌是什么

「趣看悦读」孙子被绑架需要赎金，富豪：我孙子可不少，不给，美国最抠门富豪

追加|20年302期真实的谎言3D字谜总汇+追加和值

尸体都去哪了

首家线下体验店、海外名店官网同购京东国际11.11线上线下同启跨国种草狂欢

笔记本电脑显示器亮度低笔记本显示亮度最高还是暗怎么办

数码狂人到手后台式机不想要了，8寸超级电脑掌机性能过于强大

荣创之家|如今人见人爱，这个“丑八怪”在一品威客有了新包装

小身材大能量！8.9寸神奇小本笔记本带来移动办公新体验

如何泡好红茶泡制好喝红茶的必备因素

趣闻晨报|原来张艺凡才是“颜值担当”，当她失去P图待遇后，这颜值过于真实了

娱乐大仙女|《说唱新世代》吊打新说唱，有望成为本年度最说热唱节目！