Word2Vec
在自然语言发展的早期阶段,词的表示经历了不断地发展和改进,直到后来有一种word vector的思想被提出以及后续的实现,才极大地促进了NLP
的发展。
word vector的核心思想:
为每个单词构建一个密集向量,选择后的向量与出现在类似上下文中的单词向量相似。
注:word vectors 也叫 word embeddings 或者 (neural) word representations,它们是分布式表示的。
这样的思想确实很好,可是如何实现是一个难点,实际上在2003年,Neural Probabilistic Language Model就实现了符合这种需求的词向量,不过它的本意是训练一个语言模型,词向量的生成只不过是一个附属物,并且鉴于此模型中只使用了有限的前文信息,并且计算量过大,在2013年 Mikolov
等人提出一个改进模型,用于学习词向量的表示。该模型的核心技术包括以下几点 。