【Deep Learning】genCNN: A Convolutional Architecture for Wo

作者:Mingxuan Wang,李航,刘群 单位:华为、中科院 时间:2015 发表于:acl 2015 文章下载:

主要内容: 用deep learning设计了一种语言模型,能够根据之前“所有”的历史来预测当前词的条件概率。用语言模型迷惑度衡量、用机器翻译衡量,该模型都比baseline(5-gram、RNN、等)好

具体内容:

之前用deep learning在语言模型上的进展是:RNN和LSTM 参考的工具包: RNN – LSTM – https://github.com/lisa-groundhog/GroundHog

本文作者的实现方式: (1)用alpha-cnn来模拟当前词比较近的历史,约之前30个词;用beta-cnn来递归的模拟所有之前的历史。beta-cnn的输出是其他beta-cnn以及alpha-cnn的输入。网络结构如下: (2)用了word2vec作为词语的输入,两层隐含层,,用gate代替max pooling,最后输出层是softmax层 (3)同标准cnn不同的是:标准cnn在局部共享权重,本文既有共享的权重,也有不共享的权重 (4)训练方式是最大化训练语料中句子的概率

实验结果(困惑度) 5-gram KN smoothing: 270 RNN:223 LSTM:206 本文方法:180

另外,训练时间比较长,1M句子,用了GPU还训练了2天。

莫找借口失败,只找理由成功。(不为失败找理由,要为成功找方法)

【Deep Learning】genCNN: A Convolutional Architecture for Wo

相关文章:

你感兴趣的文章:

标签云: