Bergkamp(不断反思，再接再厉）

这期主要讲Paragraph Vector。

在上一期中，我们已经了解了Word2Vec在Distributed Representation方式表示的词向量的学习构建中的突出性能，但是对于词的学习理解只是文本处理的第一步，从词上升到句子、篇章才是我们的目标，因此我们这一期主要就是探讨这个问题。

如果我们只是采用将Word2Vec建立的词向量的简单求和来表示句子或者篇章的向量，那么这将导致大量的信息丢失，包括语义和词序等方面。因此，这种方法并不可取，但是如何在保留语义和词序信息的基础上，建立有效的句子或者篇章的向量（Paragraph Vector）？这个问题困扰了我很久，直到读了Quoc,L.和Tomas, M.两人在2014年ICML上的大作之后。才算找到了满意的答案。这篇文章的具体信息：

Quoc Le, TomasMikolov. Distributed Representations of Sentences and Documents.Proceedings of the 31st International Conference on MachineLearning, Beijing, China, 2014. JMLR:W&CP volume 32.

Quoc Le的解决方法相当的巧妙，主要是在Word2Vec基础上，增加了一个文章编号，每篇文章的编号唯一，并将其看成另外的一个词，存在于每篇文章的整个训练过程中。他提出的两个模型分别为：DistributedMemory Model of Paragraph Vectors (PV-DM)和Distributed Bag of Words version of Paragraph Vector (PV-DBOW)，模型的结构分别如图1和图2所示。

图1.PV-DM

图2.PV-DBOW

看了算法之后，发现其实实现起来比较简单，就是增加了一个文章编号，其它的和Word2Vec基本一样。训练过程中，文章编号唯一，不共享，存在于每篇文章的整个训练过程；文章中的词向量也是唯一的，但是每篇文章之间是相互共享的。训练还是以固定窗口的模式，逐步带入，遍历所有的文本进行训练。从这篇文章的结果来看，PV-DM的效果最为明显，PV-DBOW有一定的影响（有1%-2%左右的提升）。算法最后运用到情感分类和文本检索中，效果非常显著。

我看了之后，很少兴奋，觉得终于找到一个方法解决自己的问题了，但是作者并没有公布程序，我就只能根据作者的思路去改Word2Vec，经过一周左右的看程序跑程序，终于实现了PV-DM，后面的PV—DBOW可能有一定影响，但不是主要。还是运用我们天涯的样本，切词然后进行学习，我给每篇文章加入帖子编号为Thrpos+编号。我这里先不展示大批量测试的结果，先给大家看几个例子（随机选的），由于文本太长，我这里只展示帖子的题目进行说明：

上图的结果是我对于帖子编号为Thrpos20000的帖子，查找与它最相似的帖子，结果中给出了前40个结果，其中也有非帖子项，需要在程序中进一步踢出，那我们来看看这些帖子是什么内容：

Thrpos200000

为陈一冰盖楼！真正的冠军应该是你！　　看了今晚的吊环决赛，真心觉得裁判眼瞎，觉得这届奥运会的部分裁判非常的针对中国的选手,可惜了那些中国的实力派运动员们啊！加油！陈一冰！今晚你的表现无懈可击，你是我们心目中真正的冠军！吊环王- – -你当得起！拿到银牌以后你大度的友好的笑容更加彰显了你的王者风采！为你自豪！祝福你有一个新的更好的开始，取得人生更大的成功！加油！加油！加油！加油！加油！加油！加油！加油！加油！加油！加油！加油！加油！加油！加油！

Thrpos200297

裁判，请给他一个不夺冠的理由　文/奔三路二　昨晚的体操男子吊环项目的冠军在北格林威治竞技场决出，中国选手陈一冰尽管完美的完成了整套动作，但是最终仍以0.1分的劣势不敌下法站立不稳的巴西选手纳巴拉特

Thrpos202608

业精于勤，荒于嬉；行成于思，毁于随。

相关文章：

你感兴趣的文章：

标签云：