Saliency Detection: A Spectral Residual Approach

《Saliency Detection: A Spectral Residual Approach》是上交高材生侯晓迪在07年的CVPR上发表的一篇论文,这篇文章提出了一个图像视觉显著性的简单计算模型,这个模型和Irri提出的模型是两个截然不同的模型,Irri模型对于图像视觉显著性主要关注整幅图片突出的部分,通过各种特征的融合提取显著性图,而Hou的这个模型一上来关注的点就不在一张图片里突出的地方,而是背景,观察是否大部分图片的背景在某个空间上都满足什么变化,最后剔除背景,自然就只剩下图片突出的部分了,这篇文章之所以简单,是因为它只需要5个matlab公式就可以得到想要的结果,也没有很复杂的公式变换,都是图像处理基本的变换公式。既然这么有趣,那我们就一起来看一下吧,只需花一点点时间就可以知道它的原理,并且实现它,是不是感觉很神奇,学习起来都有动力了。

1、引言

一般的模型都是将显著性问题转化为目标特殊性质检测的问题,例如一些颜色特征、亮度特征、纹理特征等等,面对不可预测、无数的视觉模式类别,我们需要一个通用的显著性检测系统。如果要提出一个通用的显著性检测系统,那么根据以往的模型,就必须找到目标通用的特征,但是这基本上是不可能的事,每个目标都有自己与众不同的特性。既然这样,那么Hou就干脆把问题转化一下,目标通用特性提取不到,那就找一找背景的通用特性。这就是文章创新的地方,敢于跳出已有理论的框架,从另外一个角度考虑问题,往往会有预料之外的收获。

2、谱残差模型

Barlow提出的有效编码假说指出,感知系统的信息处理过程与外界信号的统计特性密切相关。初级感知系统的作用就是去除输入信号的统计冗余。也就是说,大脑之所以能够对外界环境自适应,是因为复杂的外界刺激存在冗余,而大脑的神经元能够有效地去除这些冗余,从而可以利用较少的资源尽可能有效地表达更多的信息。

从信息论的角度来看,有效编码假说将图像信息H(Image)分为两部分:

H(Image)=H(Innovation)+H(Prior Knowledge)

H(Innovation)表示突出的部分,H(Prior Knowledge)则表示冗余的信息。通过去除图像冗余信息,就可以获得图像与众不同的部分,即显著目标。

2.1 log频谱表示

自然图像的统计特性具有变换不变性:即将图像从原来的空间坐标变换到频率坐标系中,图像在空间中具有的统计特性在频域中仍然保留,这种不变性恰好保证了采用能量谱来刻画自然图像空间相关性的可靠性。

在自然图像的统计特性中尺度不变性是最经典也是研究最广泛的特性,这种特性也被称为1/f法则,即自然图像集合的平均傅里叶谱的幅值A(f)服从下式的分布。

下图反映了自然图像的log-log谱和log谱的区别。有图可见,log-log曲线近似为一条直线,而log曲线基本符合1/f法则。由于单幅图像具有尺度不变性以及log-log谱的数据分布不均衡(低频部分数据跨度大,高频部分数据汇集),所以本文采用log谱L(f)表示图像,L(f)=log(A(f))。(注:不知为什么要选用log或者log-log来表示图像,希望高手解答)。

2.2 从谱残差到显著图的获得

对于一个系统模型而言,考虑输入刺激信号的统计相似性可以极大地减少多余的视觉信息,这是因为相似性意味着冗余。不同的图像数据,其log谱却有着相似的分布趋势,而且曲线满足局部线性条件。因此,在不同的log谱中我们只需要关注其差异部分忽略相似部分。

给定一幅图像I(x)首先计算2维离散傅里叶变换,将其从空间域转到频域,对幅值取对数后得到log谱L(f),由于log曲线满足局部线性条件,所以用局部平均滤波器h(f)对其进行平滑,获得平均频谱:

试验中,n取3,因此谱残差就是log谱和其进行均值滤波后的差,可按下面的式子计算:

R(f)=L(f)-V(f)

因此,总共需要的式子有:

先将图片进行傅里叶变换,计算振幅谱A(f),计算相位谱P(f)(复数x+i*y的相位是arctan(y/x)),L(f)是log振幅谱,h是一个n*n均值滤波的卷积核,作者设n=3。R(f)就是Spectral Residual谱,再将R(f)+i*P(f)求出自然指数exp。注意:由欧拉公式可知,exp(r+i*Θ) = exp(r)*(cos(Θ) + i*sin(Θ)) = exp(r)*cos(Θ) + i*exp(r)*sin(Θ),Θ是相位谱,然后对其傅里叶反变换,再进行一个高斯模糊滤波就得到了所谓的显著性区域。

3、实验对比和结果分析(该方法还没弄得特别明白,同样希望高手可以补充说明)

文章使用一种新的对比方法,计算击中率和误警率,公式如下所示:

其中Ok(x)表示第k个观察者标记的显著目标图,图中1代表目标物体,0代表背景,S(x)为计算出来的显著图,用击中率HR(hit rate)和误警率FAR(false alarm rate)来评价检测效果。

这种评价标准说明一个最优的显著性检测系统其HR值应该在没有被标注为显著目标的区域具有最小值,在被大多数人标为显著目标的区域具有最大值。通过比较可以得到以下结果。

却只能这样。只有对爱的人,我们才会斤斤计较,锱铢必较。

Saliency Detection: A Spectral Residual Approach

相关文章:

你感兴趣的文章:

标签云: