基于深度学习的无人机识别算法研究

　　无人机技术的发展十分迅速。从美军无人机的使用，到现在无人机在研究、民用等多方面的普及，无人机已成为一种新的潮流[1-2]。随之而来也带来很多新问题，此前无人机险撞战机事件的发生，就给人们敲响了警钟。因此，无人机系统的搭建势在必行。本文的研究重点为：建立视觉传感网，用于无人机的图像捕捉和信息存储;引入深度学习对无人机进行识别，及时发现“黑飞无人机”，并采取相应报警措施，实现对无人机的全面监管。

　　整个视觉传感网(Visual Sensor Networks，VSNs)由多个节点组成，每个节点都将由摄像机阵列构成，这将作为整个系统的基础部分[3]，如图1。

　　为了减轻对居民的干扰，可以修改摄像机焦距参数，从而摄像机的拍摄范围。通过多台摄像机交叉覆盖，成功地将中间的空地区域全方位地纳入之中。

　　考虑到多节点所提供的庞大数据量以及优化控制结构的需要，将数据网络设计成三层结构。位于最底层的第三层由数量不等的节点构成一系列簇组成，每个簇内的节点统一将数据发往一台次级处理服务器。整个网络内的次级处理服务器构成网络的第二层，将数据送往位于第一层的中央高级服务器。

　　无人机系统中关键组成是图像识别中心，其任务是将视觉传感网中的图像信息进行分析和处理，从图像中识别出无人机，从而实现对无人机的，属于目标识别领域。目前这一领域已经有了大量的优秀出现。最常见有行人检测问题，可用的特征包括：Haar、HOG、CSS、LBP等多种，这些特征表达了人体的各个重要部分，并且充分考虑了遮挡等情形。王晓刚和欧阳万里更提出了基于深度学习的行人检测手段，通过联合学习行人检测中的4个重要组成部分——特征提取、人体部件形变处理、遮挡处理和分类，最大化了各自的作用[4]。他们在传统的卷积神经网络的基础上，加入了形变处理层，最终习得的特征具有很强的判别力，优于HOG等特征。王晓刚团队的方案，是深度学习在目标识别领域的成功应用，给本文的研究提供了研究参考。再比如人脸识别问题[5-6]，则具有更复杂的变化，因为人脸受种族、肤色、表情、情绪、光照、物体遮挡等众多因素的影响。推广到各种特定物体的识别乃至场景识别、深度学习也有很多方案[7]。由于无人机系统中图片信息量丰富，且无人机的飞行状态多样，因此识别难度较大。为此，本文将引入深度学习算法，并以卷积神经网络作为图像识别中心。

　　2006年，Hinton等人首次提出深度学习的概念[8]，并了深度学习的研究浪潮，其认为：多隐层的人工神经网络能够更好地模拟人脑的思考过程，具有更加优异的学习能力，能够对数据进行更本质的刻画，从而提高可视化或者分类的能力。

　　卷积神经网络是深度学习中第一个真正多层结构学习算法，其在图像识别领域优势明显。它利用感受野、局部连接等概念极大地减少了参数量，降低了网络模型的复杂度，提高了训练效率，且网络对于平移、缩放的各种变形都具备高度不变性。

　　卷积神经网络属于前馈多层神经网络的一种，每层由多个二维平面组成，多个神经元组成了每个平面，其结构如图3所示。

　　卷积神经网络利用了一系列的卷积层，降采样层构建了多层网络，来模拟人脑视觉信号的逐层处理机制，从而提取图像的多层次特征。

　　通过加入卷积层，可以实现局部连接网络，有效减少了需要训练的网络参数。例如，对一张大的图片输入，其尺寸为r×c，随机采样为a×b的小图片，如果隐含节点为k个，那么最终学习到的特征数为：

　　池化层是为了解决网络输出维数过大、造成分类器难以设计的问题。同样是根据统计结果的相似性原理，池化操作对卷积得到的结果进行统计计算，减少了需要训练的系统参数。

　　权值更新采用BP反向算法。反向的误差可看做每个神经元的基的灵敏度(即误差E对基b变化率的偏导函数)，然后利用以下关系式：

　　由于视觉传感网获得的一系列图像中，关注的对象可能只占其中的一小部分像素区域，又由于对象具有运动性，故在识别中心操作之前将采取帧差法提取感兴趣的对象，作为算法的正式输入[10-11]。二帧差法基本原理如下：

　　(4)当误差满足或者迭代次数满足时，网络停止训练，进入Accuracy层计算准确率并输出(只在测试阶段执行，训练时不执行)。

　　输入2 848张图片进行训练，基础学习率设置为0.001，迭代5 000次后获得的模型用于之后的测试分析。测试时输入712张图片，模型正确分类的情形共有634例，可得：

　　由于目前无人机识别方面没有其他现成的模型可供比较，因此本文分析了ROC曲线参数。在信号检测理论中，接收者操作特征(Receiver Operating Characteristic，ROC)是一种对灵敏度进行描述的功能图像，该图像称为ROC曲线。应用ROC曲线来表示分类器的性能非常直观。同时为了定量且简洁地表达这种性能，Area Under roc Curve(AUC)被提出。AUC的值等于ROC曲线正下方的面积，AUC的数值越大，分类器的性能越好。图4表示的是与ROC曲线绘制相关的一些量，依次为TP(True Positive)、FP(False Positive)、FN(False Negative)、TN(True Negative)。