引领先锋|基于深度学习的文本数据特征提取方法之Word2Vec(一)( 八 ) 作者：Dipanjan(DJ)Sarkar编译：ronghu

训练模型
在我们的完整语料库上运行模型需要相当多的时间，但比CBOW模型要少。所以我只运行了5个epochs 。你可以利用以下代码，并在必要时训练更长的时间。
for epoch in range(1, 6): loss = 0 for i, elem in enumerate(skip_grams): pair_first_elem = np.array(list(zip(*elem[0]))[0], dtype='int32') pair_second_elem = np.array(list(zip(*elem[0]))[1], dtype='int32') labels = np.array(elem[1], dtype='int32') X = [pair_first_elem, pair_second_elem] Y = labels if i % 10000 == 0: print('Processed {} (skip_first, skip_second, relevance) pairs'.format(i)) loss += model.train_on_batch(X,Y)print('Epoch:', epoch, 'Loss:', loss)Epoch: 1 Loss: 4529.63803683 Epoch: 2 Loss: 3750.71884749 Epoch: 3 Loss: 3752.47489296 Epoch: 4 Loss: 3793.9177565 Epoch: 5 Loss: 3716.07605051模型训练好之后，相似的单词应该有相似的基于嵌入的权重。
得到词嵌入
要为整个词汇表获取单词嵌入，可以利用下面的代码从嵌入层提取相同的单词。请注意，我们只对目标单词嵌入感兴趣，因此我们将从 word_model嵌入层提取嵌入。我们没有在位置0处进行嵌入，因为词汇表中没有一个单词的数字标识符为0 ，我们忽略了它。
merge_layer = model.layers[0] word_model = merge_layer.layers[0] word_embed_layer = word_model.layers[0] weights = word_embed_layer.get_weights()[0][1:]print(weights.shape) pd.DataFrame(weights, index=id2word.values()).head()
可以清楚地看到，正如前面的输出所描述的，每个单词都有一个dense的大小为(1x100)的嵌入，类似于我们从CBOW模型中得到的结果。现在让我们对这些dense的嵌入向量使用欧氏距离度量来为词汇表中的每个单词生成成对的距离度量。然后，我们可以根据最短的欧氏距离找到感兴趣的每个单词的n个最近邻，这与我们在CBOW模型的嵌入中所做的类似。
from sklearn.metrics.pairwise import euclidean_distancesdistance_matrix = euclidean_distances(weights) print(distance_matrix.shape)similar_words = {search_term: [id2word[idx] for idx in distance_matrix[word2id[search_term]-1].argsort()[1:6]+1] for search_term in ['god', 'jesus', 'noah', 'egypt', 'john', 'gospel', 'moses','famine']}similar_words(12424, 12424) {'egypt': ['pharaoh', 'mighty', 'houses', 'kept', 'possess'], 'famine': ['rivers', 'foot', 'pestilence', 'wash', 'sabbaths'], 'god': ['evil', 'iniquity', 'none', 'mighty', 'mercy'], 'gospel': ['grace', 'shame', 'believed', 'verily', 'everlasting'], 'jesus': ['christ', 'faith', 'disciples', 'dead', 'say'], 'john': ['ghost', 'knew', 'peter', 'alone', 'master'], 'moses': ['commanded', 'offerings', 'kept', 'presence', 'lamb'], 'noah': ['flood', 'shem', 'peleg', 'abram', 'chose']}从结果中可以清楚地看到，对于感兴趣的每个单词，许多相似的单词都是有意义的，并且与我们的CBOW模型相比，我们获得了更好的结果。现在我们用t-SNE来可视化一下。
from sklearn.manifold import TSNEwords = sum([[k] + v for k, v in similar_words.items()], []) words_ids = [word2id[w] for w in words] word_vectors = np.array([weights[idx] for idx in words_ids]) print('Total words:', len(words), '\tWord Embedding shapes:', word_vectors.shape)tsne = TSNE(n_components=2, random_state=0, n_iter=10000, perplexity=3) np.set_printoptions(suppress=True) T = tsne.fit_transform(word_vectors) labels = wordsplt.figure(figsize=(14, 8)) plt.scatter(T[:, 0], T[:, 1], c='steelblue', edgecolors='k') for label, x, y in zip(labels, T[:, 0], T[:, 1]): plt.annotate(label, xy=(x+1, y+1), xytext=(0, 0), textcoords='offset points')

引领先锋|基于深度学习的文本数据特征提取方法之Word2Vec(一)( 八 )

推荐阅读

时尚丽人风行|色彩搭配总是在踩雷？值得一看的三点心机想不美都难，回头率爆表

父母在彩礼嫁妆上总是出尔反尔让我难做，该咋办

剧院等演出场所限流提至50%-剧院等演出场所恢复第三版

人民日报客户端广东频道|格兰仕筹划部分要约收购惠而浦（中国）

一个爱炫耀的男人值得考虑交往吗

散布武汉汛情虚假信息，2名网民被警方依法处理

华为荣耀|双11大屏手机推荐：荣耀这款手机性价比高，各项性能都很出色！

赵丽颖|收视女王转型三部曲：《知否》人生哲学神剧《楚乔传》结局最虐

首都机场▲22岁女孩刚结婚一个多月跳湖自杀，母亲称女儿婚前有很多追求者

苹果自研高端基带曝光：支持5G毫米波

趣事知多D|太羡慕番禺人！打卡南村人气第一西餐，云顶餐吧很适合约会聚餐

「试管婴儿」当初那个爱上28岁小鲜肉的老太太，不顾一切做试管婴儿，如今怎么样了？

月经血突然变黑？月经发黑是什么原因

国防部,军事|国防部通报，有重要信号

怎样合理布置餐客区

像素之源|戴安娜王妃的“鸟笼面纱帽”造型神秘高贵，朦胧美很高级

采采搞笑段子| 爆笑囧图，超市遇见一位令我心疼的男人…

【什么是旧粗布】什么是旧粗布

农村即将消失的老物件，如今成值钱老古董，第3个最贵能卖60万

贾母和宝玉是什么关系贾母想让宝玉娶谁