不可思议的Word2Vec系列一数学原理

  • 时间:
  • 浏览:0
  • 来源:5分PK10_5分PK10官网

但我各人 感觉,原始论文并这么 中文解释得清晰。

一些,为哪些地方要将它作为语言模型来看呢?抛开语言模型的思维约束,只看模型有四种 ,让他们 就会发现,Word2Vec的有有俩个模型 —— CBOW和Skip-Gram —— 实际上大有用途,它们何必 同深度1来描述了附过词与当前词的关系,而好多好多 基本的NLP任务,一定会建立在你什儿 关系之上,如关键词抽取、逻辑推理等。这几篇文章而是希望要能抛砖引玉,通过介绍Word2Vec模型有四种 ,以及多少看上去“不可思议”的用法,来提供一些研究此类问题 的新思路。

为了方便读者阅读,我还分发了有有俩个对应的PDF文件:

word2vector中的数学原理详解.pdfDeep Learning 实战之 word2vec.pdf 其中第有有俩个而是推荐的peghoty大神的系列博客的PDF版本。当然,英文好句子,还前要直接看Word2Vec的原始论文:

[1] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

有心想了解你什儿 系列的读者,有必要了解一下Word2Vec的数学原理。当然,Word2Vec出来可能性有好几年了,介绍它的文章数不胜数,这里我推荐peghoty大神的系列博客:

http://blog.csdn.net/itplus/article/details/37969519 另外,本博客的《词向量与Embedding究竟是为什么会回事?》一定会助于让他们 理解Word2Vec的原理。

说到Word2Vec的“不可思议”,在Word2Vec发布之初,可能性最让他惊讶的是它的Word Analogy特性,即诸如 king-man ≈ queen-woman 的线性特性,而发布者Mikolov认为你什儿 特性原困Word2Vec所生成的词向量具有了语义推理能力,而正是可能性你什儿 特性,加带Google的光环,让Word2Vec越快火了起来。但很遗憾,让他们 我各人 去训练词向量的前一天,着实这么 复现你什儿 结果出来,甚至也这么 任何合理的土土办法表明一份好的词向量应该满足你什儿 Word Analogy特性。不同的是,这里笔者介绍的若干个用途,可复现性是非常高的,读者甚至在小语料中训练有有俩个Word2Vec模型,一些要能取到累似 的结果。

最后,要指出的是,本系列所使用的模型是“Skip-Gram + 层次Softmax”的组合,也而是要用到P(wothers|wt)P(wothers|wt)你什儿 模型的有四种 ,而不仅仅是词向量。好多好多 ,要接着看本系列的读者,前要对Skip-Gram模型一些了解,一些对层次Softmax的构造和实现土土办法一些印象。

简单来说,Word2Vec而是“有有俩个训练方案+有有俩个提速手段”,好多好多 严格来讲,它有六个备选的模型。

大多数人一定会将Word2Vec作为词向量的等价名词,也却句子,纯粹作为有有俩个用来获取词向量的工具,关心模型有四种 的读者何必 多。可能性是可能性模型过于复杂性了,好多好多 让他们 着实另有有俩个复杂性的模型肯定很不准确,好多好多 这么 用,但它的副产品词向量的质量反而还不错。没错,可能性是作为语言模型来说,Word2Vec着实是过深糙了。

对于了解深度1学习、自然语言出理 NLP的读者来说,Word2Vec还前要说是家喻户晓的工具,尽管一定会每有一我各人 都用到了它,但应该让他们 一定会听说过它——Google出品的高传输速率的获取词向量的工具。

[2] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.

有有俩个训练方案分别是CBOW和Skip-Gram,如图所示



用通俗的语言来说,而是“附过词叠加起来预测当前词”(P(wt|Context)P(wt|Context))和“当前词分别来预测附过词”(P(wothers|wt)P(wothers|wt)),也而是条件概率建模问题 了;有有俩个提速手段,分别是层次Softmax和负样本采样。层次Softmax是对Softmax的复杂性,直接将预测概率的传输速率从??(|V|)O(|V|)降为??(log2|V|)O(log2⁡|V|),但相对来说,精度会比原生的Softmax略差;负样本采样则采用了相反的思路,它把另有有俩个的输入和输出联合起来当作输入,一些做有有俩个二分类来打分,另有有俩个子让他们 还前要看成是联合概率P(wt,Context)P(wt,Context)P(wothers,wt)P(wothers,wt)的建模了,正样本就用语料出显过的,负样本就随机抽若干。更多的内容还是去细看peghoty大神的系列博客比较好,我也是从中学习Word2Vec的实现细节的。