Bergkamp(不断反思,再接再厉)

这期主要讲Paragraph Vector。

在上一期中,我们已经了解了Word2Vec在Distributed Representation方式表示的词向量的学习构建中的突出性能,但是对于词的学习理解只是文本处理的第一步,从词上升到句子、篇章才是我们的目标,因此我们这一期主要就是探讨这个问题。

如果我们只是采用将Word2Vec建立的词向量的简单求和来表示句子或者篇章的向量,那么这将导致大量的信息丢失,包括语义和词序等方面。因此,这种方法并不可取,但是如何在保留语义和词序信息的基础上,建立有效的句子或者篇章的向量(Paragraph Vector)?这个问题困扰了我很久,直到读了Quoc,L.和Tomas, M.两人在2014年ICML上的大作之后。才算找到了满意的答案。这篇文章的具体信息:

Quoc Le, TomasMikolov. Distributed Representations of Sentences and Documents.Proceedings of the 31st International Conference on MachineLearning, Beijing, China, 2014. JMLR:W&CP volume 32.

Quoc Le的解决方法相当的巧妙,主要是在Word2Vec基础上,增加了一个文章编号,每篇文章的编号唯一,并将其看成另外的一个词,存在于每篇文章的整个训练过程中。他提出的两个模型分别为:DistributedMemory Model of Paragraph Vectors (PV-DM)和Distributed Bag of Words version of Paragraph Vector (PV-DBOW),模型的结构分别如图1和图2所示。

图1.PV-DM

图2.PV-DBOW

看了算法之后,发现其实实现起来比较简单,就是增加了一个文章编号,其它的和Word2Vec基本一样。训练过程中,文章编号唯一,不共享,存在于每篇文章的整个训练过程;文章中的词向量也是唯一的,但是每篇文章之间是相互共享的。训练还是以固定窗口的模式,逐步带入,遍历所有的文本进行训练。从这篇文章的结果来看,PV-DM的效果最为明显,PV-DBOW有一定的影响(有1%-2%左右的提升)。算法最后运用到情感分类和文本检索中,效果非常显著。

我看了之后,很少兴奋,觉得终于找到一个方法解决自己的问题了,但是作者并没有公布程序,我就只能根据作者的思路去改Word2Vec,经过一周左右的看程序跑程序,终于实现了PV-DM,后面的PV—DBOW可能有一定影响,但不是主要。还是运用我们天涯的样本,切词然后进行学习,我给每篇文章加入帖子编号为Thrpos+编号。我这里先不展示大批量测试的结果,先给大家看几个例子(随机选的),由于文本太长,我这里只展示帖子的题目进行说明:

上图的结果是我对于帖子编号为Thrpos20000的帖子,查找与它最相似的帖子,结果中给出了前40个结果,其中也有非帖子项,需要在程序中进一步踢出,那我们来看看这些帖子是什么内容:

Thrpos200000

为 陈一 冰盖 楼 ! 真正 的 冠军 应该 是 你 !     看 了 今晚 的 吊环 决赛 , 真心 觉得 裁判 眼瞎 , 觉得 这 届 奥运会 的 部分 裁判 非常 的 针对 中国 的 选手,可惜 了 那些 中国 的 实力派 运动员 们 啊 ! 加油 !陈一冰 ! 今晚 你 的 表现 无懈可击 ,你 是 我们 心目 中 真正 的 冠军 ! 吊环 王- – -你 当得起 ! 拿到 银牌 以后 你 大度 的 友好 的 笑容 更加 彰显 了 你 的 王者 风采 ! 为 你 自豪 ! 祝福 你 有 一个 新 的 更好 的 开始 , 取得 人生 更 大 的 成功 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 ! 加油 !

Thrpos200297

裁判 , 请 给 他 一个 不 夺冠 的 理由   文/奔 三路 二  昨晚 的 体操 男子 吊环 项目 的 冠军 在 北 格林威治 竞技场 决出 , 中国 选手 陈一冰 尽管 完美 的 完成 了 整套 动作 , 但是 最终 仍以0.1分 的 劣势 不敌 下法 站立 不稳 的 巴西 选手 纳巴 拉特

Thrpos202608

业精于勤,荒于嬉;行成于思,毁于随。

Bergkamp(不断反思,再接再厉)

相关文章:

你感兴趣的文章:

标签云: