首个应用残差学习的深度目标跟踪算法

　　在目标追踪界泰斗、UC Merced 杨明玄教授的指导下，城市大学、阿德莱德大学、SenseNet的研究人员从深度学习的角度出发，提出了一种端到端的跟踪模型，将特征提取和响应生成融合在深度学习框架中，只采用单层卷积的端到端结构，就达到了利用深度特征的传统协同滤波器的效果。

　　在此基础上，研究人员还引入残差学习来有效维持模型在目标运动中的预测性能，这也是残差学习的概念首次被用于目标跟踪领域。实验表明，新方法在标准的数据库中取得了state-of-the-art的精度效果。该工作将于10月末在意大利威尼斯举办的计算机视觉顶会ICCV 2017中面向全球学者进行呈现。新智元独家抢先对其内容进行详细报道。

　　目标跟踪（Object Tracking）一直是计算机视觉中应用广泛而且富有挑战性的问题。简单说，目标跟踪就是在一段视频中，给定第一帧目标物体的和大小信息（标定框）后，让跟踪算法在后续的每一帧中对目标物体的和大小进行预测。

　　跟踪算法实时确定目标物体状态，为进一步智能分析提供了先决条件。目标跟踪技术在安防、人机交互和无人驾驶等一系列领域中都有应用。

　　在实际应用中，目标跟踪算法的效果受很多因素的制约，本质是由于物体在视频中出现的各种无法预测的变化。典型的制约因素包括：

　　现实中制约目标跟踪的因素还有很多。为了克服这些因素带来的不良影响，目前主流的跟踪算法多采用深度卷积特征和传统的协同滤波相结合的方式。虽然在性能上得到了提升，但是深度学习的架构优势并未得到充分的利用（比如HCFT[1]，DeepSRDCF[2]，C-COT[3]）。

　　另一方面，有一些深度学习模型将跟踪问题为了处理物体检测（MDNet[4]）和校验（SINT[5]）的思。但是，这种方法在不利用额外的跟踪视频做训练的前提下，其精度无法匹及协同滤波。

　　下面要介绍的这项工作，从深度学习的角度出发，提出了一种端到端的跟踪模型，并用残差式学习来有效维持模型在目标运动中的预测性能，在标准的数据库中取得了state-of-the-art的精度效果。有鉴于其性能优异，方法创新——首次将残差学习应用于目标追踪，该工作已被ICCV 2017接收。

　　虽然深度学习方法在物体检测和识别方面已经取得了优异的效果，但是在物体跟踪的算法研究中，主流方向依然集中在协同滤波器的各种拓展。纵然使用深度学习，也只是将深度卷积特征作为传统特征的替代，提升跟踪的精度。

　　协同滤波的优势在于其在频率域的快速运算和对物体的密集估计特性，这一优点一直吸引研究人员在此框架内不断做新的探索。但是，协同滤波方法并非没有局限。首先，协同滤波跟输入特征没有关联，这样一个结构并没有对跟踪这个问题有专门的改进。其次，协同滤波器的在线更新方法是人先验设定的，并没有随着物体的在线变化过程而做自适应的调整。

　　那么，有没有方法改进上述问题呢？从本质上说，协同滤波器是一个与物体特征做卷积从而生成二维高斯响应的过程。训练协同滤波器的系数，即为衡量卷积后的响应与真实高斯响应偏差多少的操作。

　　研究人员发现，这样一种训练方式，可以用L2损失函数训练单层卷积层来等价替换。采用单层卷积替代协同滤波的好处是，特征提取和高斯响应的生成可以紧密地结合在一起，为端到端的训练和预测提供了基础。此外，由于训练卷积层可以采用梯度下降的优化方法，就能够对整个框架为了实现跟踪任务进行一体的优化。另外，在线模型更新的过程也是网络根据物体的变化情况做自适应的调整。相比于传统协同滤波计算封闭解的方法和固定更新方法的人为先验设置，深度学习的优化框架无疑是更优越的。

　　同时，用单层卷积层代替协同滤波器，对特征的卷积操作也从频域转换到了时域，从而有效的克服了傅里叶变换带来的边界影响问题。

　　有了端对端建模，研究人员成功将物体从输入图像回归成二维的高斯响应图，峰值即为物体的。那么在理想情况下，网络会准确地对物体进行回归。

　　而当前文提到的制约因素，比如光照、目标物体大小发生了剧烈的变化，目标物体与背景相似时，网络将无法预测的准确二维高斯响应。这时，峰值发生了变化，导致物体预测失败。

　　为了提升网络预测的高斯响应图的质量，本文提出了残差式学习的概念。具体讲，在单层卷积作为基本映射（Base mapping）的基础上，并行地引入了残差映射（Residual mapping），用这种方法来捕获基本映射和真实高斯响应之间的差异。

　　在物体处于平稳状态时，基本映射的输出和真实值的高斯响应很相似，此时残差网络几乎没有什么输出。在物体处于不稳定的状态时，残差网络能够很好的捕获基本映射的输出和真实值高斯响应的差异，通过加法操作补充基本映射的输出，从而使整个网络的输出更逼近真实值，更好地对目标进行定位。

　　同时，本文也利用了第一帧的初始信息，将其残差补充于随后帧的预测中，帮助基本映射生成更优的高斯响应。

　　经过实验，作者发现新的方法只采用单层卷积的端到端结构，达到了利用深度特征的传统协同滤波器的效果。不仅如此，时空域的残差结构还提升了基本映射的精度。与其他跟踪方法相比，该方法在标准数据库上取得了state-of-the-art 的精度结果。

　　此外，在标准数据库OTB[6]上，本文提出的CREST方法取得的state-of-the-art的效果。更多的实验结果在文中进行了呈现。

　　下面是直观的跟踪效果展示，在标准数据库OTB[6]上比较了新方法CREST和目前主流的跟踪方法Staple[7]，SRDCF[8]，MDNet[4]，C-COT[3]。以下为这些跟踪算法在一些挑战性场景下的效果。

　　当跟踪目标产生剧烈的运动变化时，CREST（红框）可以有效地进行跟踪。MDNet（蓝框）也能。

　　本文将利用深度学习框架，对目标跟踪进行了端到端的建模，从而能够进行全局的优化和更新。针对目标物体遇到的挑战性的场景，本文提出的残差式网络结构能够从时域和空域捕获高斯响应图的不足，并在整个网络中弥补单层卷积网络的带来的局限性。因此，跟踪的精度在标准数据库上得到了显著的提升。

　　本文来源于ipfs

首个应用残差学习的深度目标跟踪算法

相关阅读

网友评论 ()条查看

推荐文章更多

热门图文更多

最新文章更多

首个应用残差学习的深度目标跟踪算法

相关阅读

网友评论 ()条 查看

推荐文章更多

热门图文更多

最新文章更多

网友评论 ()条查看