【Deep Learning】genCNN: A Convolutional Architecture for Wo

作者：Mingxuan Wang，李航，刘群单位：华为、中科院时间：2015 发表于：acl 2015 文章下载：

主要内容：用deep learning设计了一种语言模型，能够根据之前“所有”的历史来预测当前词的条件概率。用语言模型迷惑度衡量、用机器翻译衡量，该模型都比baseline（5-gram、RNN、等）好

具体内容：

之前用deep learning在语言模型上的进展是：RNN和LSTM 参考的工具包： RNN – LSTM – https://github.com/lisa-groundhog/GroundHog

本文作者的实现方式：（1）用alpha-cnn来模拟当前词比较近的历史，约之前30个词；用beta-cnn来递归的模拟所有之前的历史。beta-cnn的输出是其他beta-cnn以及alpha-cnn的输入。网络结构如下：（2）用了word2vec作为词语的输入，两层隐含层，，用gate代替max pooling，最后输出层是softmax层（3）同标准cnn不同的是：标准cnn在局部共享权重，本文既有共享的权重，也有不共享的权重（4）训练方式是最大化训练语料中句子的概率

实验结果（困惑度） 5-gram KN smoothing: 270 RNN：223 LSTM：206 本文方法：180

另外，训练时间比较长，1M句子，用了GPU还训练了2天。

莫找借口失败，只找理由成功。(不为失败找理由，要为成功找方法)

相关文章：

你感兴趣的文章：

标签云：