（已经得到cmm的同意）CVPR2014 Objectness Estimation at 300fp

本文转自，感谢cmm.

BING: Binarized Normed Gradients for Objectness Estimation at 300fps.Ming-Ming Cheng, Ziming Zhang, Wen-Yan Lin, Philip Torr, IEEE CVPR, 2014.[Project page][pdf][bib]

亮点巨多：

有望for free的加速几乎所有object detection方法。去年CVPR best paper，以及在VOC上跑出最好成绩的ICCV 2013 Oral paper, 在共同抱怨的generic object proposal的速度瓶颈完全解决了。应该最多再过一年，各种realtime，high performance的multi-object detection将迅速涌现。我来牛津一年多了，第一次在组内reading group （~vgg/rg/）上听Prof. Andrew Zisserman （全世界唯一拿过3次Marr奖的教授，论文citaiton 6万多）在组内讨论中对一个paper给这么正面的评价，并在我作组内reading group报告当天安排自己的学生开始做后续工作。由于这次只用了最最简单的feature （梯度绝对值），最简单的学习方法（Linear SVM）。应该非常容易进行扩展和改进。我2011年发布Saliency region detection代码的时候，当时觉得会有比较多的后续工作（后来证明光我自己的论文就有400多次引用），但也没有这次这个topic这么让人激动！相信未来一段时间将有非常多的领域会产生深刻的变化。为了推动这一变化，算法已经与一个小时前共享了出来：C++代码

人去识别一个照片，没见过谁用sliding window的方式一个个仔细的判断。因此Objectness 和 Saliency机制很相关，我感觉用objectness应该是detection的正确机制。

关于Salient object detection，如果一个图像只生成一个saliency map的话，用单张图像搞Saliency map，发展空间已经不是特别大了，我11年投PAMI那篇在MSRA1000上做到了93%左右的FMeasure，之后没看过别的比我CVPR11论文中segmentation结果（F = 90%）更高的正确率。用多张图像，特别是从internet上随机download的图像，从中提取有用的Salient object，并自动剔除单张图像分析产生的错误，应该还有很多事情可做。具体可参考：

关于Objectness，CVPR14这个充其量只算开了个头。因为只用了最最弱的feature（梯度：相邻像素颜色相减的绝对值）和学习方法（LinearSVM）来刻画我对这个问题的observation。进一步对初步结果做分析，将1000个proposal降低到几百个，，甚至几十个，并同时保持较高的recall，将会有很多工作可做。从1千降到几十，将是一个漫长的过程，估计需要上百篇paper的不懈努力才有可能实现。

要是在未来几年，能将proposal数目降低到个位数，将会深刻影响图像编辑领域，我们也可能可以直接通过语音命令在没有分类器存在的情况下发出控制命令，例如“把这个object给我变大…”。关于语音控制的semantic parsing和图像编辑，有兴趣的话可以参考：。这个paper接收后也会公布代码。

以上来自cmm的评价

最后说下自己的感触，有的研究真的没必要堆那么多的算法，有的简单的，不起眼的算法就能解决相当困难的问题，会得到意想不到的效果。总之，每种方法要对症下药，才能事半功倍。做科研就像填空题一样，语言文字简短精炼，比起那些冗余复杂的文字来的效果更好。

最后祝大家科研马到成功，也祝自己越来越好。过段时间我会将cmm这篇文章的vs2010版奉上，方便vs2010的童鞋（cmm的是vs2012）.

NEW!!!!!!!!!!!!!

程序（vs2010 win8 32bit，建议将win32改成x64就可以了）下载地址：

你可以这样理解 impossible(不可能)–I'm possible (我是可能的)。

相关文章：

你感兴趣的文章：

标签云：