CNN（卷积神经网络）在视频动作分类中的应用

简介

最近接触了一些卷积神经网络的只是以及其在视频动作分类中的应用，本文对其进行一下小结。CNN在图像任务，比如ImageNet上取得很好的效果，，但是在视频相关的任务中还没有太大的进展。取得比较好效果的有两篇文章，一篇是Stanford发表在CVPR2014上的《Large-scale Video Classification with Convolutional Neural Networks》，另外一篇是NIPS2014上的《Two-Stream Convolutional Networks for Action Recognition in Videos》，下面分别介绍一下两篇文章的大致内容：

Large-scale Video Classification with Convolutional Neural Networks

在这篇文章中我认为其主要的贡献有两点：一个是实验了不同的卷积神经网络的结果，从而在CNN中表示出视频的时间信息，二是介绍了一种multi-resolution的CNN结构，从而减少了网络的参数，加速了训练的时间。

Fusion Method

这部分内容比较了如图所示的四种不同的CNN结构：

这个图解释了几种不同的卷积的区别，来自《C3D Generic Features for Video Analysis》一文。

Multi-resolution CNN

文章的这部分介绍了一种简化神经网络结构和加速训练的CNN结构，如图所示：

简单来说，对于一张大的输入图像，比如为178 * 178大小，我们分别截取其中间的89 * 89部分和将其缩小成89 * 89大小从而分别作为两个卷积层的输入。

Two-Stream Convolutional Networks for Action Recognition in Videos

这篇文章的内容相对比较简单，其设计的CNN的结构如下所示：

这个其实就是两个独立的神经网络了，最后再把两个模型的结果平均一下。上边一个就是普通的single frame的CNN，而且文章当中提到了，这个CNN是在ImageNet的数据上pre-train，然后在视频数据上调整最后一层（直接把其他人训练好的CNN如vgg拿来微调一下最后一层我想也是可以的罢？）。下面的一个CNN网络，就是把连续几帧的光流叠起来作为CNN的输入，这个倒是没有在其他地方看到过似乎。另外，这个文章中提到的有意思的一点就是multi-task learning来克服数据量不足的问题。其实就是CNN的最后一层连到多个softmax的层上，对应不同的数据集，这样就可以在多个数据集上进行multi-task learning。

每个人都有自己鲜明的主张和个性，

相关文章：

你感兴趣的文章：

标签云：