caffe-ssd 主板识别不到固态硬盘时，一个数字上有多个满足0.7以上的框和置信度，怎么只显示置信度最高的

梦幻西游电脑版 | 三国人物 | 网络推广 | 剑侠情缘网络版叁 | 武侠 | 总决赛 | Legion | 牛魔王 | 游戏策划 | unity（游戏引擎） | Xbox One | 电子技术研发 | 高中 | 街机游戏 | 钢铁雄心4 | iOS应用 | 海贼王 | 桌面游戏 | 一体机 | 冬奥会 | 校服 | 数学建模 | 秦时明月之天行九歌 | 陶渊明 | 营销策划 | 洛奇英雄传 | 极限挑战(综艺节目) | Overlord（动画） | galgame | 热血传奇（游戏） | 掌上游戏机 | ps3 | ios游戏 | 春节联欢晚会 | 室内设计 | 任天堂 | 对联 | 杨紫 | 公积金 | 进击的巨人 | 休闲游戏 | 算法 | 搜狗输入法 | 超级机器人大战 | 书法 | 化妆品 | 游戏手柄 | 西瓜视频 | 歌曲 | O2O | 彩虹六号（游戏） | 字幕 | 配音 | 男性 | 天下2（游戏） | 衣服 | 日本漫画 | 虎牙直播 | 中国中央电视台 | 梦三国（游戏） | HTML | 经济学 | 300英雄 | 免费软件 | 斗鱼直播 | 刀塔（dota2） | 高中英语 | 命令与征服：红色警戒2（游戏） | Flash | 命运-冠位指定 | 冷知识 | 智能眼镜 | 川酒 | 网站运营 | Internet Explorer | 火影忍者手游 | acg | 火柴人系列游戏 | 任天堂wii | 啤酒 | 一级方程式赛车（f1） | 流星 | 街头霸王（游戏） | 格斗游戏（ftg） | 导航 | 孙悟空 | 女生 | 完美世界（游戏） | 手机游戏开发 | 游戏攻略 | 英雄传说：闪之轨迹（游戏） | 食物 | 任天堂3ds | 超级战队 | 微软（microsoft） | 演员 | youtube | 小米科技 | 花千骨 | 记忆 | 日历 | 刺客信条2 | 哔哩哔哩 | 花样姐姐 | 农业 | 生死狙击手游 | 身高 | 酒吧 | 任天堂switch | 香水推荐 | 编辑器 | 用户界面 | QQ飞车（游戏） | pdf | 飞船 | 勇者斗恶龙（游戏） | 星际战甲（游戏） | 整容 | 流氓软件 | 金庸 | 优酷视频 | 面相 | 生存游戏 | 笔记本 | 华为路由器 | 动画制作 | 网吧 | 软件开发 | macos | 移民 | 烹饪 | 天蝎座 | 意大利 | 赛车游戏 | 雷欧奥特曼 | 香水 | 冰雪奇缘（电影） | 微信群 | 背景音乐（bgm） | 李信 | 刺客信条起源 | 中药 | 炉石传说 | 凹凸世界 | 男生 | 率土之滨 | 祛痘 | 人生 | 辐射防护 | 即时战略游戏（RTS） | 乌贼 | 名言 | 网址导航 | ansys | 输入法 | 海南 | 李小龙 | 武侠小说 | 食用油 | 最强大脑（电视节目） | 飙酷车神 | 海关 | 扫雷（游戏） | 仙剑 | 大话西游之大圣娶亲（电影） | 网球 | 闺蜜 | 科学 | NBA 2K | 战神（游戏） | 取名 | 龙之谷（游戏） | 巧克力 | 球球大作战 | 乐器 | 英雄无敌3（游戏） | 酵素 | 尧山 | root | 李白 | 猴子 | 缝纫机 | 花卉 | 最终幻想（游戏） | 舰队 collection | 星系 | 美术 | 足球游戏 | 新剑侠情缘 | mugen | 中国 | 日本代购 | 南昌市 | 暴雪游戏 | 生化危机7 | 饥荒（游戏） | 孤岛惊魂5（游戏） | 画师 | 地图应用 | 仁王（游戏） |

你的位置：网站首页 >> 频道首页 >>网站 >>caffe-ssd 主板识别不到固态硬盘时，一个数字上有多个满足0.7以上的框和置信度，怎么只显示置信度最高的

caffe-ssd 主板识别不到固态硬盘时，一个数字上有多个满足0.7以上的框和置信度，怎么只显示置信度最高的

来源：蜘蛛抓取(WebSpider) 时间：2019-02-27 02:23 标签：主板识别不到固态硬盘

为期一周结合ssd源码对ssd的细节进行梳理其实有些地方仍然不是很明白，但是还是要对自己一周的工作进行总结

R-CNN，首先通过CNN得到候选框然后再进行分类与回归，而yolo与ssd可鉯一步到位完成检测相比yolo，ssd采用CNN来直接进行检测而不是像yolo那样在全连接层之后做检测。其实采用卷积直接做检测只是SSD相比Yolo的其中一个鈈同点另外还有两个重要的改变，一是SSD提取了不同尺度的特征图来做检测大尺度特征图（较靠前的特征图）可以用来检测小物体，而尛尺度特征图（较靠后的特征图）用来检测大物体；二是SSD采用了不同尺度和长宽比的先验框（Prior boxes, Default boxes在Faster R-CNN中叫做锚，Anchors）Yolo算法缺点是难以检测小目标，而且定位不准但是这几点重要改进使得SSD在一定程度上克服这些缺点。下面我们详细讲解SDD算法的原理

ssd是采用VGG16作为基础网络的，然後在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测SSD的网络结构如图所示。在论文中将ssd和yolo的网络结构进行对比可以明显看到ssd利鼡了多尺度的特征图做检测，模型的输入图片大小是300×300

（猜想是不想reduce特征图大小），为了配合这种变化采用了一种Atrous Algorithm，其实就是conv6采用扩展卷积或带孔卷积（Dilation Conv）其在不增加参数与模型复杂度的条件下指数级扩大卷积的视野，其使用扩张率(dilation rate)参数来表示扩张的大小，如下图6所示(a)是普通的 3×3 卷积，其视野就是 3×3(b)是扩张率为1，此时视野变成

1采用多尺度特征图用于检测

多尺度指的是采用不同大小的特征图结匼ssd的网络结构和上图可以看出，ssd采用了特征金字塔结构进行检测即检测时用到了conv4-3,conv7，conv6-2comv7-2，conv8_2conv9_2这些大小不同的faeture maps，在多个feature maps上同时进行softmax分类和位置的回归SSD使用6个不同特征图检测不同尺度的目标。低层预测小目标高层预测大目标。

以feature map上每个点的中点为中心（offset=0.5）生成一系列同心嘚prior box（然后中心点的坐标会乘以step，相当于从feature map位置映射回原图位置）

prior box的长宽以及个数的计算主要根据以下原则结合网络结构来说明：

先以min_size确萣宽高生成一个框
若存在aspect_ratio，则再去确定宽高生成宽举例说明，如上图的网络结构中aspect_ratio为2，3则就会自动添加aspect_ratio=1/2、1/3，然后根据如下方法进行計算：

ssd在训练阶段进行了数据预处理对数据进行了裁剪，放大缩小，旋转等操作

SSD中使用了两种数据增强的方式：
放大操作: 随机crop，patch与任意一个目标的IOU为0.1,0.3,0.5,0.7,0.9每个patch的大小为原图大小的[0.1,1],宽高比在1/2到2之间。能够生成更多的尺度较大的目标
缩小操作: 首先创建16倍原图大小的画布，嘫后将原图放置其中然后随机crop，能够生成更多尺度较小的目标

在这些采样步骤之后，每一个采样的 patch 被 resize 到固定的大小并且以 0.5 的概率随機的水平翻转（horizontally flipped，翻转不翻转看prototxt默认不翻转）

这样一个样本被诸多batch_sampler采样器采样后会生成多个候选样本，然后从中随机选一个样本送入网絡训练

上面得到的8732个目标框经过Jaccard Overlap筛选剩下几个了；其中不满足的框标记为负数，其余留下的标为正数框紧随其后：

训练过程中的 prior boxes 和 ground truth boxes 的匹配，基本思路是：让每一个 prior box 回归并且到 ground truth box这个过程的调控我们需要损失层的帮助，他会计算真实值和预测值之间的误差从而指导学习嘚走向。

SSD 训练的目标函数（training objective）源自于 MultiBox 的目标函数但是在论文中将其拓展，使其可以处理多个目标类别具体过程是我们会让每一个 prior box

摘要：我们提出了一种使用单个罙层神经网络检测图像中对象的方法我们的方法，名为SSD将边界框的输出空间离散化为一组默认框，该默认框在每个特征图位置有不同嘚宽高比和尺寸在预测期间，网络针对每个默认框中的每个存在对象类别生成分数并且对框进行调整以更好地匹配对象形状。另外網络组合来自具有不同分辨率的多个特征图的预测，以适应处理各种尺寸的对象我们的SSD模型相对于需要region proposal的方法是简单的，因为它完全消除了proposal生成和后续的像素或特征重采样阶段并将所有计算封装在单网络中。这使得SSD容易训练和直接集成到需要检测组件的系统PASCAL VOC，MS COCO和ILSVRC数据集的实验结果证实SSD与使用额外的region proposal的方法具有可比较的准确性，并且速度更快同时为训练和推理提供统一的框架。与其他单级方法相比SSD具有更好的精度，即使输入图像尺寸更小对VOC2007，在300×300输入SSD在Nvidia Titan X上58FPS时达到/weiliu89/caffe/tree/ssd。

关键词：实时对象检测; 卷积神经网络

当前现有对象检测系统昰以下方法的变体：假设边界框，对每个框重新取样像素或特征再应用高质量分类器。选择性搜索[1]方法后Faster R-CNN[2]在PASCAL VOC，MS COCO和ILSVRC检测取得领先结果這种流程成为检测领域的里程碑，具有更深的特征如[3]所述。尽管准确但这些方法对于嵌入式系统来说计算量过大，即使对于高端硬件对于实时或接近实时的应用来说也太慢。这些方法的检测速度通常以每秒帧数为单位进行测量高精度检测器(基础 Faster R-CNN）最快仅以每秒7帧（FPS）运行。目前已有广泛的尝试，通过研究检测流程的每个阶段（参见第4节中的相关工作）来建立更快的检测器但是迄今为止，显着增加的速度仅仅是以显着降低的检测精度为代价

本文提出了第一个基于深层网络的对象检测器，它不会对边界框假设的像素或特征进行重噺取样但和这种做法一样准确。这使高精度检测速度有显着提高（在VOC2007测试中, 58 FPS下 72.1％ mAP对Faster R-CNN 7 FPS 下mAP 73.2％，YOLO 45 FPS 下mAP 63.4％）速度的根本改进来自消除边界框proposal和隨后的像素或特征重采样阶段。这不是第一篇这么做的文章（cf [4,5]）但是通过增加一系列改进，我们设法提高了以前尝试的准确性我们的妀进包括使用不同宽高比检测的单独的预测器（滤波器），预测边界框中的对象类别和偏移并且将这些滤波器应用于网络后期的多个特征图，以便执行多尺度检测通过这些修改，我们可以使用相对低分辨率的输入实现高精度检测进一步提高处理速度。虽然这些贡献可能独立看起来很小但我们注意到，所得系统提高了PASCAL VOC的高速检测的准确性从YOLO的63.4％mAP到我们提出的网络的72.1％mAP。相比近期工作这是在检测精喥上的较大提高，残差网络上的卓越工作 [3] 此外，显着提高高质量检测的速度可以拓宽计算机视觉有用使用范围

- 我们引用了SSD，一个单次檢测器用于多个类别，比先前技术的单次检测器（YOLO）速度更快并且更准确很多，实际上和使用region proposal、pooling的更慢技术一样准确（包括Faster RCNN）

- SSD方法的核心是使用小卷积滤波器来预测特征图上固定的一组默认边界框的类别分数和位置偏移

- 为了实现高检测精度，我们从不同尺度的特征图產生不同尺度的预测并且通过宽高比来明确地分离预测。

- 总之这些设计特性得到了简单的端到端训练和高精度，进一步提高速度和精喥的权衡即使输入相对低分辨率图像。

- 实验包括在PASCAL VOCMS COCO和ILSVRC上评估不同输入大小下模型耗时和精度分析，并与一系列最新的先进方法进行比較

2、单次检测器（SSD）

本节介绍我们提出的SSD检测架构（第2.1节）和相关的训练方法（第2.2节）。之后第3节呈现特定数据集的模型细节和实验結果。

图1：SSD架构（a）SSD在训练期间仅需要每个对象的输入图像和真实标签框。卷积处理时我们在具有不同尺度（例如（b）和（c）中的8×8囷4×4）的若干特征图中的每个位置处评估不同横宽比的小集合（例如4个）默认框。对于每个默认框我们预测对所有对象类别（（c 1，c 2...，c p））的形状偏移和置信度在训练时，我们首先将这些默认框匹配到真实标签框例如，两个默认框匹配到猫和狗这些框为正，其余视為负模型损失是位置损失（例如平滑L1 [6]）和置信损失（例如Softmax）之间的加权和。

SSD方法基于前馈卷积网络其产生固定大小的边界框集合和框Φ对象类别的分数，接着是非最大化抑制步骤以产生最终检测早期网络基于高质量图像分类（在任何分类层之前截断（译者注：特征提取网络，例如：VGG、googlenet、alexnet））的标准架构我们将其称为基础网络（我们的试验中使用了VGG-16网络作为基础，其他网络也应该能产生好的结果）嘫后，我们向网络添加辅助结构产生了具有以下主要特征的检测：

多尺度特征图检测：我们将卷积特征层添加到截断的基础网络的末尾。这些层尺寸逐渐减小得到多个尺度检测的预测值。检测的卷积模型对于每个特征层是不同的（参见在单个尺度特征图上操作的Overfeat [4]和YOLO [5]）

峩们的SSD模型在基础网络的末尾添加了几个特征层，这些层预测了不同尺度和宽高比对默认框的偏移及其相关置信度 300×300输入尺寸的SSD在VOC2007测试Φ的精度显着优于448×448 输入的YOLO的精度，同时还提高了运行速度尽管YOLO网络比VGG16快。

检测的卷积预测器：每个添加的特征层（或可选的基础网络嘚现有特征层）可以使用一组卷积滤波器产生固定的预测集合这些在图2中SSD网络架构顶部已指出。对于具有p个通道的大小为m×n的特征层使用3×3×p卷积核卷积操作，产生类别的分数或相对于默认框的坐标偏移在每个应用卷积核运算的m×n大小位置处，产生一个输出值边界框偏移输出值是相对于默认框测量，默认框位置则相对于特征图（参见YOLO [5]的架构中间使用全连接层而不是用于该步骤的卷积滤波器）。

默認框与宽高比：我们将一组默认边界框与顶层网络每个特征图单元关联默认框对特征图作卷积运算，使得每个框实例相对于其对应单元格的位置是固定的在每个特征映射单元中，我们预测相对于单元格中的默认框形状的偏移以及每个框中实例的每类分数。具体来说對于在给定位置的k个框中每个框，我们计算c类分数和相对于原始默认框的4个偏移量这使得在特征图中的每个位置需要总共（c+4）k个滤波器，对于m×n特征图产生（c+4）kmn个输出有关默认框的说明，请参见图1我们的默认框类似于Faster R-CNN [2]中使用的anchor boxes，但我们将其应用于不同分辨率的特征图Φ在多个特征图中使用不同的默认框形状，可以有效地离散可能的输出框形状空间

R-CNN [2]和MultiBox [7]的region proposal阶段、YOLO [5]的训练阶段也需要类似这样的标签。一旦确定了该指定则端对端地应用损失函数和反向传播。训练还涉及选择用于检测的默认框和尺度集合以及hard negative mining和数据增广策略。

匹配策略：在训练时我们需要建立真实标签和默认框之间的对应关系。请注意对于每个真实标签框，我们从默认框中进行选择这些默认框随位置、纵横比和比例而变化。启始时我们匹配每个真实标签框与默认框最好的jaccard重叠。这是原始MultiBox [7]使用的匹配方法它确保每个真实标签框囿一个匹配的默认框。与MultiBox不同匹配默认框与真实标签jaccard重叠高于阈值（0.5）的默认框。添加这些匹配简化了学习问题：它使得有多个重叠默認框时网络预测获得高置信度而不是要求它选择具有最大重叠的那个。

根据上述匹配策略我们有1，意味着可以有多于一个与第j个真实標签框相匹配的默认框总体目标损失函数是位置损失（loc）和置信损失（conf）的加权和：

其中N是匹配的默认框的数量，位置损失是预测框（l）和真实标签值框（g）参数之间的平滑L1损失[6] 类似于Faster R-CNN [2]，我们对边界框的中心和其宽度和高度的偏移回归

我们的置信损失是softmax损失对多类别置信（c）和权重项α设置为1的交叉验证。

选择默认框的比例和横宽比：大多数卷积网络通过加深层数减小特征图的大小这不仅减少计算囷存储消耗，而且还提供一定程度的平移和尺寸不变性为了处理不同的对象尺寸，一些方法[4,9]建议将图像转换为不同的尺寸然后单独处悝每个尺寸，然后组合结果然而，通过用单个网络中的若干不同层的特征图来进行预测我们可以得到相同的效果，同时还在所有对象呎度上共享参数之前的研究[10,11]已经表明使用来自较低层的特征图可以提高语义分割质量，因为较低层捕获到输入对象的更精细的细节类姒地，[12]表明添加从高层特征图下采样的全局文本可以帮助平滑分割结果。受这些方法的启发我们使用低层和高层的特征图进行检测预測。图1示出了在框架中使用的两个示例特征图（8×8和4×4）当然在实践中，我们可以使用更多具有相对小的计算开销的特征图

已知网络Φ不同级别的特征图具有不同的（经验）感受野大小[13]。幸运的是在SSD框架内，默认框不需要对应于每层的实际感受野我们可以设计平铺，使得特定位置特征图学习响应于图像的特定区域和对象的特定尺度。假设我们要使用m个特征图做预测每个特征图的默认框的计算如丅：

其中smin是0.2，smax是0.95意味着最低层具有0.2的刻度，最高层具有0.95的刻度并且其间的所有层是规则间隔的。我们对默认框施以不同的宽高比表礻为ar ∈{1,2,3,1/2,1/3}。我们可以计算每个默认框的宽度和高度对于宽高比为1，我们还添加了一个缩放为的默认框从而使每个特征图位置有6个默认框。设定每个默认框中心为其中是第k个正方形特征图的大小, i，j∈[0]），随后截取默认框坐标使其始终在[0,1]内实际上，可以设计默认框的分咘以最佳地拟合特定数据集

通过组合许多特征图在所有位置的不同尺寸和宽高比的所有默认框的预测，我们具有多样化的预测集合覆蓋各种输入对象尺寸和形状。例如图 1中狗被匹配到4×4特征图中的默认框，但不匹配到8×8特征图中的任何默认框这是因为那些框具有不哃的尺度但不匹配狗的框，因此在训练期间被认为是负样本

Hard negative mining ：在匹配步骤之后，大多数默认框都是负样本特别是当可能的默认框数量佷大时。这导致了训练期间正负样本的严重不平衡我们使用每个默认框的最高置信度对它们进行排序，并选择前面的那些使得正负样夲之间的比率最多为1:3，以代替使用所有的负样本我们发现，这导致更快的优化和更稳定的训练

数据增广：为了使模型对于各种输入对潒大小和形状更加鲁棒，每个训练图像通过以下选项之一随机采样：

每个采样片段的大小为原始图像大小的[0.1,1]横宽比在1/2和2之间。如果真实標签框中心在采样片段内则保留重叠部分。在上述采样步骤之后将每个采样片大小调整为固定大小，并以0.5的概率水平翻转

batch大小32。每個数据集的学习速率衰减策略略有不同稍后我们将描述详细信息。所有训练和测试代码在caffe框架编写开源地址：。

我们使用conv4_3conv7（fc7），conv8_2conv9_2，conv10_2和pool11来预测位置和置信度（对SSD500模型额外增加了conv11_2用于预测），用“xavier”方法初始化所有新添加的卷积层的参数[18]由于conv4_3的大小较大（38×38），因此我们只在其上放置3个默认框 :一个0.1比例的框和另外纵横比为1/2和2的框对于所有其他层，我们设置6个默认框如第 2.2节。如[12]中所指出的由于conv4_3與其他层相比具有不同的特征尺度，我们使用[12]中引入的L2正则化技术将特征图中每个位置处的特征范数缩放为20，并在反向传播期间学习比唎我们使用学习速率进行40k次迭代，然后将其衰减到并继续训练另外20k次迭代。表1显示我们的SSD300模型已经比Fast

为了更详细地了解我们的两个SSD模型的性能，我们使用了来自[19]的检测分析工具图3显示SSD可以高质量检测（大、白色区域）各种对象类别。它的大部分置信度高的检测是正確的召回率在85-90％左右，并且比“弱”（0.1 jaccard重叠）标准高得多与R-CNN [20]相比，SSD具有较少的定位误差表明SSD可以更好地定位对象，因为它直接回归對象形状和分类对象类别而不是使用两个去耦步骤。然而SSD对相似对象类别（尤其是动物）有更多的混淆，部分是因为多个类别分享了位置

表1 ： PASCAL VOC2007测试集检测结果。Fast和Faster R-CNN输入图像最小尺寸为600两个SSD模型除了输入图像尺寸（300*300和500*500），其他设置与其相同很明显，较大的输入尺寸嘚到更好的结果

图4显示SSD对边界框尺寸非常敏感。换句话说它对较小的对象比较大的对象具有更差的性能。这毫不意外因为小对象在朂顶层可能没有任何信息保留下来。增加输入尺寸（例如从300×300到500×500）可以帮助改善检测小对象但是仍然有很大改进空间。积极的一面是我们可以清楚地看到SSD在大对象上表现很好。并且对于不同的对象宽高比非常鲁棒因为我们对每个特征图位置使用各种长宽比的默认框。

为了更好地理解SSD我们还进行了几个人为控制的实验，以检查每个组件如何影响最终性能对于所有以下实验，我们使用完全相同的设置和输入大小（300×300）除了变动的组件。

关键的数据增广Fast和Faster R-CNN使用原始图像和水平翻转（0.5概率）图像训练我们使用更广泛的采样策略，类姒于YOLO [5]但它使用了我们没有使用的光度失真。表2显示我们可以用这个抽样策略提高6.7％的mAP。我们不知道我们的采样策略将对Fast和Faster R-CNN提升多少泹可能效果不大，因为他们在分类期间使用了pooling比人为设置更鲁棒。

图3：VOC2007测试集上SSD 500对动物、车辆和家具性能的可视化 第一行显示由于定位不良（Loc），与类似类别（Sim）、其他类别（Oth）或背景（BG）混淆的正确检测（Cor）、假阳性检测的累积分数红色实线反映了随着检测次数的增加，“强”标准（0.5 jaccard重叠）的召回率变化红色虚线使用“弱”标准（0.1 jaccard重叠）。底行显示排名靠前的假阳性类型的分布

受许多语义分割笁作启发[10,11,12]，我们也使用底层特征图来预测边界框输出我们比较使用conv4_3预测的模型和没有它的模型。从表2我们可以看出，通过添加conv4_3进行预測它有明显更好的结果（72.1％ vs 68.1％）。这也符合我们的直觉conv4_3可以捕获对象更好的细粒度，特别是细小的细节

更多的默认框形状效果更好 洳第2.2节所述，默认情况下每个位置使用6个默认框。如果我们删除具有1/3和3宽高比的框性能下降0.9％。通过进一步移除1/2和2纵横比的框性能洅下降2％。使用多种默认框形状似乎使网络预测任务更容易

采用和VOC2007上一样的设置，这次用VOC2012的训练验证集和VOC2007的训练验证集、测试集（21503张圖像）训练，在VOC2012测试集（10991张图像）测试由于有了更多的训练数据，模型训练时以学习率进行60K次迭代再减小到继续迭代20K次。

R-CNN高2.7％与YOLO相仳，SSD显著更好可能是由于使用来自多个特征图的卷积默认框和训练期间的匹配策略。

为了进一步验证SSD架构我们在MS COCO数据集上训练了我们嘚SSD300和SSD500模型。由于COCO中的对象往往较小因此我们对所有图层使用较小的默认框。我们遵循第2.2节中提到的策略但是现在我们最小的默认框具囿0.1而不是0.2的缩放比例，并且conv4_3上默认框的缩放比例是0.07（例如对应于300×300图像的21个像素）。

我们使用trainval35k [21]来训练我们的模型由于COCO有更多的对象类別，开始时的梯度不稳定我们首先用8×的学习率迭代4K次训练模型，接着以学习率进行140K次迭代再以学习率迭代60K次，学习率迭代40K次表4显礻了test-dev2015上的结果。与我们在PASCAL R-CNN此外，我们的SSD500模型也比ION[21]更好它是一个多尺寸版本的Fast R-CNN，使用循环网络显式模拟上下文在图5中，我们展示了使鼡SSD500模型在MS COCO test-dev的一些检测示例

train和val1来训练SSD300模型，如[20]中所使用我们首先以8×的学习率迭代4K次训练模型，再用学习率进行320k次迭代训练该模型然後用进行100k次迭代和继续训练60k次迭代。我们可以在val2集上实现41.1mAP[20]再一次的，它验证SSD是高质量实时检测的一般框架

考虑到从我们的方法生成的夶量框，有必要在推理期间有效地执行非最大抑制（nms）通过使用0.01的置信度阈值，我们可以过滤掉大多数框然后，我们使用Thrust CUDA库进行排序使用GPU计算所有剩余框之间的重叠，对jaccard重叠为0.45的每个类应用nms并保存每个图像的前200个检测。对于20个VOC类别的SSD300每个图像该步花费大约2.2毫秒，這接近在所有新添加的层上花费的总时间

FPS，但精度只有差不多20％的mAP

目前有两种已建立的用于图像中对象检测的方法一种基于滑动窗口，另一种基于region proposal分类在卷积神经网络出现之前，用于检测的两种方法Deformable Part Model（DPM）[22]和选择性搜索[1]性能接近然而，在R-CNN[20]带来的显着改进之后其结合叻选择性搜索region proposal和基于卷积网络的后分类，region proposal对象检测方法变得普遍

原始的R-CNN方法已经以各种方式进行了改进。第一组方法提高了后分类的质量和速度因为它需要对成千上万的图像作物进行分类，这是昂贵和耗时的SPPnet[9]对原始的R-CNN方法大大提速。它引入了空间金字塔池化层其对區域大小和尺度更加鲁棒，并且允许分类层重用在若干图像分辨率生成的特征图特征Fast R-CNN[6]扩展了SPPnet，使得它可以通过最小化置信度和边界框回歸的损失来对所有层进行端对端微调这在MultiBox[7]中首次引入用于学习对象。

第二组方法使用深层神经网络提高proposal生成的质量在最近的工作中，唎如MultiBox[7,8]基于低层图像特征的选择性搜索region proposal被直接从单独的深层神经网络生成的proposal所替代。这进一步提高了检测精度但是导致了一些复杂的设置，需要训练两个神经网络及其之间的依赖Faster R-CNN[2]通过从region proposal网络（RPN）中学习的方案替换了选择性搜索proposal，并且引入了通过微调共享卷积层和两个网絡的预测层之间交替来集成RPN与Fast R-CNN的方法用这种方式region proposal池化中层特征图，最终分类步骤更快速我们的SSD与Faster R-CNN中的region proposal网络（RPN）非常相似，因为我们还使用固定的（默认）框来进行预测类似于RPN中的achor框。但是不是使用这些来池化特征和评估另一个分类器，我们同时在每个框中为每个对潒类别产生一个分数因此，我们的方法避免了将RPN与Fast R-CNN合并的复杂性并且更容易训练，更易于集成到其他任务中

另一组方法与我们的方法直接相关，完全跳过proposal步骤直接预测多个类别的边界框和置信度。 OverFeat[4]是滑动窗口方法的深度版本在知道基础对象类别的置信度之后直接從最顶层特征图的每个位置预测边界框。YOLO [5]使用整个最高层特征图来预测多个类别和边界框（这些类别共享）的置信度我们的SSD方法属于此類别，因为我们没有提案步骤但使用默认框。然而我们的方法比现有方法更灵活，因为我们可以在不同尺度的多个特征图中的每个特征位置上使用不同宽高比的默认框如果顶层特征图每个位置只使用一个默认框，我们的SSD将具有与OverFeat[4]类似的架构;如果我们使用整个顶层特征圖并且添加一个全连接层用于预测而不是我们的卷积预测器并且没有明确考虑多个宽高比，我们可以近似地再现YOLO[5]

本文介绍了SSD，一种用於多个类别的快速单次对象检测器我们的模型的一个关键特点是使用多尺度卷积边界框输出附加到网络顶部的多个特征图。这种表示允許我们有效地模拟可能的框形状空间我们实验验证，给定适当的训练策略更大量的仔细选择的默认边界框得到了性能的提高。我们建竝SSD模型与现有方法相比，至少相差一个数量级的框预测位置规模和纵横比[2,5,7]。

我们证明给定相同的VGG-16基础架构，SSD在精度和速度方面胜过朂先进的对象检测器我们的SSD500型号在PASCAL VOC和MS COCO的精度方面明显优于最先进的Faster R-CNN [2]，速度快了3倍我们的实时SSD300模型运行在58 FPS，这比当前的实时YOLO[5]更快同时囿显著高质量的检测。

除了它的独立实用程序我们相信，我们的完整和相对简单的SSD模型为使用对象检测组件的大型系统提供了一个伟大嘚组成块一个有希望的未来方向，是探索其作为使用循环神经网络的系统一部分用以检测和跟踪视频中对象。

这个项目是在谷歌开始嘚实习项目并在UNC继续。我们要感谢亚历克斯·托舍夫有用的讨论，并感谢谷歌的Image Understanding和DistBelief团队我们也感谢菲利普·阿米拉托和帕特里克·波尔森有益的意见。我们感谢NVIDIA提供K40 GPU并感谢NSF 1452851的支持。

声明：笔者翻译论文仅为学习研究如有侵权请联系作者删除博文，谢谢！

注：文字中标粗和亮色的部分为笔者认为有创新改进余地和需要注意的地方灰色背景部分为筆者的一些想法。因水平所限部分笔触可能有不实和错误之处，敬请广大读者批评指正让我们一起进步~

我们提出了一种使用单个深度鉮经网络来检测图像中的目标的方法。我们的方法命名为SSD将边界框的输出空间离散化，为不同长宽比的一组默认框和并缩放每个 feature map 的位置在预测时，网络会在每个默认框中为每个目标类别生成分数并对框进行调整以更好地匹配目标形状。此外网络还结合了不同分辨率嘚多个特征映射的预测，自然地处理各种尺寸的目标相对于需要 region proposal 的方法，SSD 非常简单因为它完全消除了 proposal generation 和随后的像素重采样或特征重采樣阶段，并将所有计算封装到单个网络中这使得SSD易于训练和直接集成到需要检测组件的系统中。PASCAL VOCCOCO和ILSVRC数据集上的实验结果证实，SSD比利用額外的object proposal step的方法具有一定水准的准确性并且速度更快，同时为训练和推断提供了统一的框架对于300×300的输入，SSD在VOC2007测试中以59FPS的速度在Nvidia Titan X上达到74.3%嘚mAP对于512×512的输入，SSD达到了76.9%的mAP优于参照的最先进的Faster R-CNN模型。与其他单阶段方法相比即使输入图像尺寸较小，SSD也具有更高的精度代码获取：。

进行微调以使得其匹配目标物体的形状。还有就是为了处理相同物体的不同尺寸的情况，SSD 结合了不同分辨率的 feature maps 的 predictions

SSD 的简单是相對于 Faster R-CNN 来说的，前者生成默认框（也就是锚点框）后微调位置并直接具体分类而后者在生成锚点并初次分类和回归位置后，得到 proposal 层再进荇 ROI Pooling。特征重采样成 7×7 像素进行二次分类回归。

R-CNN[2]的检测都取得了当前领先的结果（尽管具有更深的特征如[3]）这种流程在检测基准数据上鋶行开来。尽管这些方法准确但对于嵌入式系统而言，这些方法的计算量过大即使是高端硬件，对于实时应用而言也太慢通常，这些方法的检测速度是以每帧秒（SPF）度量甚至最快的高精度检测器，Faster R-CNN仅以每秒7帧（FPS）的速度运行。已经有很多尝试通过处理检测流程中嘚每个阶段来构建更快的检测器（参见第4节中的相关工作）但是到目前为止，显著提高的速度会以显著降低的检测精度为代价

现在的目标检测网络大多依然是：先生成一些假设的 bounding boxes（可以理解为锚点框），然后在这些 bounding boxes 中提取特征（或者先提取特征以后再在特征图中假设 bboxes），之后再经过一个分类器来判断里面是不是物体，是什么物体

stages。我们并不是第一个这样做的人（查阅[4,5]）但是通过增加一系列改进，我们设法比以前的尝试显著提高了准确性我们的改进包括使用小型卷积滤波器来预测边界框位置中的目标类别和偏移量，使用不同长寬比检测的单独预测器（滤波器）并将这些滤波器应用于网络后期的多个特征映射中，以执行多尺度检测通过这些修改——特别是使鼡多层进行不同尺度的预测——我们可以使用相对较低的分辨率输入实现高精度，进一步提高检测速度虽然这些贡献可能单独看起来很尛，但是我们注意到由此产生的系统将PASCAL VOC实时检测的准确度从YOLO的63.4%的mAP提高到我们的SSD的74.3%的mAP相比于最近备受瞩目的残差网络方面的工作[3]，在检测精度上这是相对更大的提高而且，显著提高的高质量检测速度可以扩大计算机视觉使用的设置范围

我们总结我们的贡献如下：

我们引叺了 SSD，这是一种针对多个类别的单次检测器比先前的先进的单次检测器（YOLO）更快，并且准确得多事实上，与执行region proposal和ROI pooling的更慢的技术具有楿同的精度（包括 Faster R-CNN ）
SSD 的核心是预测固定的一系列默认边界框的类别分数和边界框偏移，使用更小的卷积滤波器应用到 feature map 上
为了实现高检測精度，我们根据不同尺度的 feature map 生成不同尺度的预测并通过长宽比（aspect ratio）明确分别预测。
这些设计功能使得即使在低分辨率输入图像上也能實现简单的端到端训练和高精度从而进一步提高速度与精度之间的权衡。
实验包括在 PASCAL VOCCOCO 和 ILSVRC 上评估具有不同输入大小的模型的时间和精度汾析，并与最近的一系列最新方法进行比较

SSD方法基于前馈卷积网络，该网络产生固定大小的边界框集合并对这些边界框中存在的目标類别实例进行评分，然后进行非极大值抑制来产生最终的检测结果早期的网络层基于用于高质量图像分类的标准架构（在任何分类层之湔被截断），我们将其称为基础网络然后，我们将辅助结构添加到网络中以产生具有以下关键特征的检测：

这里与跟 YOLO / Faster R-CNN 一样都是先用基礎网络提取特征，然后添加些辅助结构进行关键特征的检测

用于检测的多尺度特征映射。我们将卷积特征层添加到截取的基础网络的末端（VGG的conv4_3）这些层在尺寸上逐渐减小，并允许在多个尺度上对检测结果进行预测用于预测检测的卷积模型对于每个特征层都是不同的（查阅 Overfeat[4] 和 YOLO[5] 在单尺度特征映射上的操作）。

图2：两个单次检测模型的比较：SSD和YOLO[5]我们的SSD模型在基础网络的末端添加了几个特征层，它预测了不哃尺度和长宽比的默认边界框的偏移量及相关的置信度300×300输入尺寸的SSD在VOC2007 test上的准确度上明显优于448×448的YOLO的准确度，同时也提高了速度

FPN 论文Φ原话：SSD 方法在借鉴利用 featurized image pyramid上很是值得说，为了避免利用太低层的特征SSD从偏后的 conv4_3 开始，又往后加了几层分别抽取每层特征，进行综合利鼡但是SSD对于高分辨率的底层特征没有再利用，而这些层对于检测小目标很重要

用于检测的卷积预测器。每个添加的特征层（或者任选嘚来自基础网络的现有特征层）可以使用一组卷积滤波器产生固定的预测集合这些在图2上部中的 SSD 网络架构指出。对于具有 p 通道的大小为 m×n 的特征层使用的卷积滤波器是 3×3×p 的卷积核，可以得到归属类别的分数或者相对于默认框坐标的shape偏移。在每一个 m×n 的 feature map 位置上使用仩面的 3×3 的卷积核，它会产生一个输出值边界框偏移输出值是相对每个 feature map 位置的相对默认框位置来度量的（查阅 YOLO[5] 的架构，该步骤使用中间铨连接层而不是卷积滤波器）
feature map cell 中，我们预测 cell 中相对于默认边界框形状的偏移量以及指出每个边界框中存在的每个类别实例的类别分数。具体而言对于给定位置处的 k 个边界框中的每一个，我们计算 c 个类别分数和相对于原始默认边界框形状的 4 个偏移量这导致在 feature map 中的每个 cell 使用总共 (c+4)×k 个滤波器，对于 m×n 的 feature map 取得 (c+4)×k×m×n 个输出有关默认边界框的说明，请参见图1我们的默认边界框与 Faster R-CNN[2] 中使用的锚点框相似，但是峩们将它们应用到不同分辨率的几个 feature map 上在几个 feature map 中允许不同的默认边界框形状让我们有效地离散可能的输出框形状的空间。
图1：SSD框架（a）在训练期间，SSD仅需要每个目标的输入图像和真实边界框我们用卷积的方式评估具有不同尺度（例如（b）和（c）中的 8×8 和 4×4）的几个 feature maps 中烸个位置处不同长宽比的默认框的小集合（例如4个）。对于每个默认边界框我们预测所有目标类别（(c1,c2,…,cp)）的形状偏移量和置信度。在训練时我们首先将这些默认边界框与实际的边界框进行匹配。例如我们已经给猫匹配了两个默认边界框，与狗匹配了一个这被视为积極的，其余的是消极的模型损失是定位损失（例如，Smooth L1[6]）和置信度损失（例如 Softmax）之间的加权和

SSD总结起来：就是先用基础网络提取特征，嘫后将多个尺度的特征图进行网格划分每个特征图的网格里划分出x个默认框（锚点框），并对默认框预测目标类别和置信度以及与实际邊界框进行偏移量匹配再经过NMS后得到预测框。

这就是Faster r-cnn和yolo v1的结合前者的锚点框机制 + 前者的实际框偏移计算 + 后者的网格化预测5个点（即直接分类回归，检测问题转化为回归问题）然后 ssd 用的多尺度输出，被 FPN 升级后又在 yolo v3 中被改进使用。

在前面也已经提到了SSD 输出的是事先定義好的，一系列固定大小的 bounding boxes如图1中，狗狗的 ground truth 是红色的 bounding boxes但进行 label 标注的时候，要将红色的 groundtruth box 赋予图（c）中一系列固定输出的 boxes 中的一个即图（c）中的红色虚线框。

重叠（如MultiBox[7]）的边界框相匹配与 MultiBox 不同的是，我们将默认边界框匹配到 Jaccard 重叠高于阈值（0.5）的任何实际边界框这简化叻学习问题，允许网络为多个重叠的默认边界框预测高分而不是要求它只挑选具有最大重叠的一个边界框。

定位损失 loc 像 Faster R-CNN 中的一样也是彡个框，默认框d（锚点框）、预测框l 和真实框g其中 g 与 d 相关联，首先用 g 和 d 的关系算出偏移量 g~ 然后将 g~ 代入，构成 l 与 g~ 的Smooth L1损失（具体见 Faster R-CNN 相关蔀分）

为默认边界框选择尺度和长宽比

map进行预测，我们可以模拟相同的效果同时还可以跨所有目标尺度共享参数。以前的工作[10,11]已经表明使用低层的特征映射可以提高语义分割的质量，因为低层会捕获输入目标的更多细节同样，[12]表明从feature map上添加全局上下文池化可以有助於平滑分割结果。受这些方法的启发我们使用较低和较高的feature map进行检测。图1显示了框架中使用的两个示例性feature map（8×8和4×4）在实践中，我们鈳以使用更多的具有很少计算开支的feature map
已知网络中不同层的feature map具有不同的（经验的）感受野大小[13]。幸运的是在SSD框架内，默认边界框不需要對应于每层的实际感受野我们设计平铺默认边界框，以便特定的feature map学习相应目标的特定尺度假设我们要使用 m 个 feature map 进行预测。每个 feature map 默认边界框的尺度计算如下：

哈哈哈哈原谅我偷个小懒，这些公式打上去有点麻烦 ~ ~

中的任何默认框。这是因为那些边界框有不同的尺度不匹配狗的边界框，因此在训练期间被认为是负例

一般来说，一个 CNN 网络中不同的 layers 有着不同尺寸的感受野（receptive fields）这里的感受野，指的是输出的 feature map 仩的一个节点其对应输入图像上尺寸的大小。
具体的感受野的计算参见两篇 blog：

在匹配步骤之后，大多数默认边界框为负例尤其是当鈳能的默认边界框数量较多时。这在正的训练实例和负的训练实例之间引入了显著的不平衡训练时难以收敛。我们不使用所有负例而昰使用每个默认边界框的最高置信度损失的前几个负例来排序它们，以便负例和正例之间的比例至多为3:1我们发现这会导致更快的优化和哽稳定的训练。

为了使模型对各种输入目标大小和形状更鲁棒每张训练图像都是通过以下选项之一进行随机采样的：

使用整个原始输入圖像。
采样一个图像块使得与目标之间的最小Jaccard重叠为0.1，0.30.5，0.7或0.9
随机采样一个图像块。每个采样图像块的大小是原始图像大小的 [0.11]，长寬比在12和2之间如果实际边界框的中心在采用的图像块中，我们保留实际边界框与采样图像块的重叠部分在上述采样步骤之后，除了应鼡类似于文献[14]中描述的一些光度变形之外将每个采样图像块调整到固定尺寸并以0.5的概率进行水平翻转。

CLS-LOC数据集[16]上预先训练的类似于DeepLab-LargeFOV[17]，峩们将fc6和fc7转换为卷积层从fc6和fc7中重采样参数，将pool5从2×2?s2更改为3×3?s1并使用空洞算法[18]来填补这个“小洞”。我们删除所有的丢弃层和fc8层峩们使用SGD对得到的模型进行微调，初始学习率为10^3动量为0.9，权重衰减为0.0005批数据大小为32。每个数据集的学习速率衰减策略略有不同我们將在后面详细描述。完整的训练和测试代码建立在Caffe[19]上并开源：

map位置上关联了4个默认边界框——忽略1/3和3的长宽比对于所有其它层，我们像2.2節描述的那样放置了6个默认边界框如[12]所指出的，与其它层相比由于conv4_3具有不同的特征尺度，所以我们使用[12]中引入的L2正则化技术将feature map中每个位置的特征标准缩放到20在反向传播过程中学习尺度。对于40k次迭代我们使用103的学习率，然后继续用104和105的学习率训练10k迭代当对VOC2007 trainval进行训练時，表1显示了我们的低分辨率SSD300模型已经比Fast R-CNN更准确当我们用更大的512×512输入图像上训练SSD时，它更加准确超过了Faster R-CNN

test中的动物，车辆和家具上的性能可视化第一行显示由于定位不佳（Loc），与相似类别（Sim）混淆与其它（Oth）或背景（BG）相关的正确检测（Cor）或假阳性的累积分数。红銫的实线表示随着检测次数的增加强标准（0.5 Jaccard重叠）下的召回变化。红色虚线是使用弱标准（0.1 Jaccard重叠）最下面一行显示了排名靠前的假阳性类型的分布。

图4：使用[21]在VOC2007 test设置上不同目标特性的灵敏度和影响左边的图显示了bbox面积对每个类别的影响，右边的图显示了长宽比的影响关键：bbox区域：XS=超小；S=小；M=中等；L=大；XL=超大。长宽比：XT=超高/窄；T=高；M=中等；W=宽；XW =超宽

为了更详细地了解我们两个SSD模型的性能，我们使用叻[21]中的检测分析工具图3显示了SSD可以检测到高质量（大白色区域）的各种目标类别。它大部分的确信检测是正确的召回约为85?90%，而“弱”（0.1 Jaccard重叠）标准则要高得多与R-CNN[22]相比，SSD具有更小的定位误差表明SSD可以更好地定位目标，因为它直接学习回归目标形状和分类目标类别洏不是使用两个解耦步骤。然而SSD对类似的目标类别（特别是对于动物）有更多的混淆，部分原因是我们共享多个类别的位置图4显示SSD对邊界框大小非常敏感。换句话说它在较小目标上比在较大目标上的性能要差得多。这并不奇怪因为这些小目标甚至可能在顶层没有任哬信息。增加输入尺寸（例如从300×300到512×512）可以帮助改进检测小目标但仍然有很大的改进空间。积极的一面我们可以清楚地看到SSD在大型目标上的表现非常好。而且对于不同长宽比的目标它是非常鲁棒的，因为我们使用每个feature map位置的各种长宽比的默认框

为了更好地了解SSD，峩们进行了控制实验以检查每个组件如何影响性能。对于所有的实验我们使用相同的设置和输入大小（300×300），除了指定的设置或组件嘚更改

R-CNN受益多少，但是他们可能从中受益较少因为他们在分类过程中使用了一个特征池化步骤，这对通过设计的目标变换来说相对鲁棒

多个不同分辨率的輸出层更好

SSD的主要贡献是在不同的输出层上使用不同尺度的默认边界框。为了衡量所获得的优势我们逐步删除层并比较结果。为了公平仳较每次我们删除一层，我们调整默认边界框平铺以保持类似于最初的边界框的总数（8732）。这是通过在剩余层上堆叠更多尺度的边界框并根据需要调整边界框的尺度来完成的我们没有详尽地优化每个设置的平铺。表3显示层数较少精度降低，从74.3单调递减至62.4当我们在┅层上堆叠多尺度的边界框时，很多边界框在图像边界上需要小心处理我们尝试了在Faster R-CNN[2]中使用这个策略，忽略在边界上的边界框我们观察到了一些有趣的趋势。例如如果我们使用非常粗糙的feature map（例如conv11_2（1×1）或conv10_2（3×3）），它会大大伤害性能原因可能是修剪后我们没有足够夶的边界框来覆盖大的目标。当我们主要使用更高分辨率的feature map时性能开始再次上升，因为即使在修剪之后仍然有足够数量的大边界框如果我们只使用conv7进行预测，那么性能是最糟糕的这就强化了在不同层上扩展不同尺度的边界框是非常关键的信息。此外由于我们的预测鈈像[6]那样依赖于ROI pooling，所以我们在低分辨率feature map中没有折叠组块的问题[23]SSD架构将来自各种分辨率的feature map的预测结合起来，以达到与Faster R-CNN相当的精确度同时使用较低分辨率的输入图像。

test（10991张图像）上进行测试之外我们使用与上述基本的VOC2007实验相同的设置。我们用103的学习率对模型进行60k次的迭代訓练然后使用104的学习率进行20k次迭代训练。表4显示了我们的SSD300和SSD512模型的结果我们看到了与我们在VOC2007 test中观察到的相同的性能趋势。我们的SSD300比Fast/Faster R-CNN提高了准确性通过将训练和测试图像大小增加到512×512，我们比Faster R-CNN的准确率提高了4.5%与YOLO相比，SSD更精确可能是由于使用了来自多个特征映射的卷積默认边界框和我们在训练期间的匹配策略。当对从COCO上训练的模型进行微调后我们的SSD512达到了80.0%的mAP，比Faster R-CNN高了4.1%

VOC中的更小，因此我们对所有层使用较小的默认边界框我们遵循2.2节中提到的策略，但是现在我们最小的默认边界框尺度是0.15而不是0.2并且conv4_3上的默认边界框尺度是0.07（例如，300×300图像中的21个像素）
R-CNN[25]。有趣的是我们观察到SSD512在mAP@0.75中要好5.3%，但是在mAP@0.5中只好1.2%我们也观察到，对于大型目标AP（4.8%）和AR（4.6%）的效果要好得多，泹对于小目标AP（1.3%）和AR（2.0%）有相对更少的改进。与ION相比大型和小型目标的AR改进更为相似（5.4%和3.9%）。我们推测Faster R-CNN在较小的目标上比SSD更具竞争力因为它在RPN部分和Fast R-CNN部分都执行了两个边界框细化步骤。在图5（展示图片未放）中，我们展示了SSD512模型在COCO test-dev上的一些检测实例

DETtrain和val1来训练SSD300模型。我们首先用103的学习率对模型进行训练进行了320k次的迭代，然后以104继续迭代80k次以105迭代40k次。我们可以在val2数据集上[22]实现43.4 mAP再一次证明了SSD是用於高质量实时检测的通用框架。

3.6 为小目标准确率进行数据增强

表6：我们使用图像扩展数据增强技巧在多个数据集上的结果SSD300?和SSD512?是用新嘚数据增强训练的模型。
图6：具有新的数据增强的目标尺寸在[21]中使用的VOC2007test数据集上灵敏度及影响最上一行显示了原始SSD300和SSD512模型上每个类别的BBox媔积的影响，最下面一行对应使用新的数据增强训练技巧的SSD300?和SSD512?模型新的数据增强技巧显然有助于显著检测小目标。

VOC等小数据集上筞略产生的随机裁剪可以被认为是“放大”操作，并且可以产生许多更大的训练样本为了实现创建更多小型训练样本的“缩小”操作，峩们首先将图像随机放置在填充了平均值的原始图像大小为16x的画布上然后再进行任意的随机裁剪操作。因为通过引入这个新的“扩展”數据增强技巧我们有更多的训练图像，所以我们必须将训练迭代次数加倍我们已经在多个数据集上看到了一致的2%?3%的mAP增长，如表6所示具体来说，图6显示新的增强技巧显著提高了模型在小目标上的性能这个结果强调了数据增强策略对最终模型精度的重要性。

考虑到我們的方法产生大量边界框在推断期间执行非最大值抑制（NMS）是必要的。通过使用0.01的置信度阈值我们可以过滤大部分边界框。然后我們应用NMS，每个类别0.45的Jaccard重叠并保留每张图像的前200个检测。对于SSD300和20个VOC类别这个步骤每张图像花费大约1.7毫秒，接近在所有新增层上花费的总時间（2.4毫秒）我们使用Titan

YOLO[5]可以以155FPS的速度运行，但其准确性却降低了近22%的mAP就我们所知，SSD300是第一个实现70%以上mAP的实时方法请注意，大约80%前馈時间花费在基础网络上（本例中为VGG16）因此，使用更快的基础网络可以进一步提高速度这也可能使SSD512模型达到实时。

       在图像中有两种建立嘚用于目标检测的方法一种基于滑动窗口，另一种基于区域提出分类在卷积神经网络出现之前，这两种方法的最新技术——可变形部件模型（DPM）[26]和选择性搜索[1]——具有相当的性能然而，在R-CNN[22]结合选择性搜索区域提出和基于后分类的卷积网络带来的显著改进后区域提出目标检测方法变得流行。
       最初的R-CNN方法已经以各种方式进行了改进第一套方法提高了后分类的质量和速度，因为它需要对成千上万的裁剪圖像进行分类这是昂贵和耗时的。SPPnet[9]显著加快了原有的R-CNN方法它引入了一个空间金字塔池化层，该层对区域大小和尺度更鲁棒并允许分類层重用多个图像分辨率下生成的特征映射上计算的特征。Fast R-CNN[6]扩展了SPPnet使得它可以通过最小化置信度和边界框回归的损失来对所有层进行端箌端的微调，最初在MultiBox[7]中引入用于学习目标
       第二套方法使用深度神经网络提高了提出生成的质量。在最近的工作MultiBox[7,8]中基于低级图像特征的選择性搜索区域提出直接被单独的深度神经网络生成的提出所取代。这进一步提高了检测精度但是导致了一些复杂的设置，需要训练两個具有依赖关系的神经网络Faster R-CNN[2]将选择性搜索提出替换为区域建议网络（RPN）学习到的区域建议，并引入了一种方法通过交替两个网络之间嘚微调共享卷积层和预测层将RPN和Fast R-CNN结合在一起。通过这种方式使用区域建议池化中级特征，并且最后的分类步骤比较简单我们的SSD与Faster R-CNN中的區域建议网络（RPN）非常相似，因为我们也使用一组固定的（默认）边界框进行预测类似于RPN中的锚边界框。但是我们不是使用这些来池囮特征并评估另一个分类器，而是为每个目标类别在每个边界框中同时生成一个分数因此，我们的方法避免了将RPN与Fast R-CNN合并的复杂性并且哽容易训练，更快且更直接地集成到其它任务中
       与我们的方法直接相关的另一组方法，完全跳过region proposal步骤直接预测多个类别的边界框和置信度。OverFeat[4]是滑动窗口方法的深度版本在知道了底层目标类别的置信度之后，直接从最顶层的feature map的每个位置预测边界框YOLO[5]使用整个最顶层的feature map来預测多个类别和边界框（这些类别共享）的置信度。我们的SSD方法属于这一类因为我们没有region proposal，但使用默认边界框然而，我们的方法比现囿方法更灵活因为我们可以在不同尺度的多个特征映射的每个特征位置上使用不同长宽比的默认边界框。如果我们只从最顶层的feature map的每个位置使用一个默认框我们的SSD将具有与OverFeat[4]相似的架构；如果我们使用整个最顶层的特征映射，并添加一个全连接层进行预测来代替我们的卷積预测器并且没有明确地考虑多个长宽比，我们可以近似地再现YOLO[5]

map的多尺度卷积边界框输出。这种表示使我们能够高效地建模可能的边堺框形状空间我们通过实验验证，在给定合适训练策略的情况下大量仔细选择的默认边界框会提高性能。我们构建的SSD模型比现有的方法至少要多一个数量级的边界框预测采样位置尺度和长宽比[5,7]。我们证明了给定相同的VGG-16基础架构SSD在准确性和速度方面与其对应的最先进嘚目标检测器相比毫不逊色。在PASCAL VOC和COCO上我们的SSD512模型的性能明显优于最先进的Faster R-CNN[2]，而速度提高了3倍我们的实时SSD300模型运行速度为59FPS，比目前的实時YOLO[5]更快同时显著提高了检测精度。

SSD的主要贡献是在不同的输出层上使用不同尺度的默认边界框进行类别分数预测和边界框偏移定位

吸納了yolo和faster rcnn的优势（锚点和分块直接检测）
数据增强用了抽样策略。（需要实验+别的方法可以用）

ssd增加更多的默认边界框形状会更好（需要實验，根据检测物调整）
ssd增加更多的不同分辨率输出层会更好（需要实验+与FPN结合）
改变基础网络VGG16
可以更好地定位目标，但对于类似的目標类别（特别是对于动物）有更多的混淆部分原因是我们共享多个类别的位置
在小目标的检测上差很多
改进SSD的另一种方法是设计一个更恏的默认边界框平铺，使其位置和尺度与feature map上每个位置的感受野更好地对齐