反向传播神经网络更新w和b为什么w和b要设置的比较小

梦幻西游电脑版 | 三国人物 | 网络推广 | 剑侠情缘网络版叁 | 武侠 | 总决赛 | Legion | 牛魔王 | 游戏策划 | unity（游戏引擎） | Xbox One | 电子技术研发 | 高中 | 街机游戏 | 钢铁雄心4 | iOS应用 | 海贼王 | 桌面游戏 | 一体机 | 冬奥会 | 校服 | 数学建模 | 秦时明月之天行九歌 | 陶渊明 | 营销策划 | 洛奇英雄传 | 极限挑战(综艺节目) | Overlord（动画） | galgame | 热血传奇（游戏） | 掌上游戏机 | ps3 | ios游戏 | 春节联欢晚会 | 室内设计 | 任天堂 | 对联 | 杨紫 | 公积金 | 进击的巨人 | 休闲游戏 | 算法 | 搜狗输入法 | 超级机器人大战 | 书法 | 化妆品 | 游戏手柄 | 西瓜视频 | 歌曲 | O2O | 彩虹六号（游戏） | 字幕 | 配音 | 男性 | 天下2（游戏） | 衣服 | 日本漫画 | 虎牙直播 | 中国中央电视台 | 梦三国（游戏） | HTML | 经济学 | 300英雄 | 免费软件 | 斗鱼直播 | 刀塔（dota2） | 高中英语 | 命令与征服：红色警戒2（游戏） | Flash | 命运-冠位指定 | 冷知识 | 智能眼镜 | 川酒 | 网站运营 | Internet Explorer | 火影忍者手游 | acg | 火柴人系列游戏 | 任天堂wii | 啤酒 | 一级方程式赛车（f1） | 流星 | 街头霸王（游戏） | 格斗游戏（ftg） | 导航 | 孙悟空 | 女生 | 完美世界（游戏） | 手机游戏开发 | 游戏攻略 | 英雄传说：闪之轨迹（游戏） | 食物 | 任天堂3ds | 超级战队 | 微软（microsoft） | 演员 | youtube | 小米科技 | 花千骨 | 记忆 | 日历 | 刺客信条2 | 哔哩哔哩 | 花样姐姐 | 农业 | 生死狙击手游 | 身高 | 酒吧 | 任天堂switch | 香水推荐 | 编辑器 | 用户界面 | QQ飞车（游戏） | pdf | 飞船 | 勇者斗恶龙（游戏） | 星际战甲（游戏） | 整容 | 流氓软件 | 金庸 | 优酷视频 | 面相 | 生存游戏 | 笔记本 | 华为路由器 | 动画制作 | 网吧 | 软件开发 | macos | 移民 | 烹饪 | 天蝎座 | 意大利 | 赛车游戏 | 雷欧奥特曼 | 香水 | 冰雪奇缘（电影） | 微信群 | 背景音乐（bgm） | 李信 | 刺客信条起源 | 中药 | 炉石传说 | 凹凸世界 | 男生 | 率土之滨 | 祛痘 | 人生 | 辐射防护 | 即时战略游戏（RTS） | 乌贼 | 名言 | 网址导航 | ansys | 输入法 | 海南 | 李小龙 | 武侠小说 | 食用油 | 最强大脑（电视节目） | 飙酷车神 | 海关 | 扫雷（游戏） | 仙剑 | 大话西游之大圣娶亲（电影） | 网球 | 闺蜜 | 科学 | NBA 2K | 战神（游戏） | 取名 | 龙之谷（游戏） | 巧克力 | 球球大作战 | 乐器 | 英雄无敌3（游戏） | 酵素 | 尧山 | root | 李白 | 猴子 | 缝纫机 | 花卉 | 最终幻想（游戏） | 舰队 collection | 星系 | 美术 | 足球游戏 | 新剑侠情缘 | mugen | 中国 | 日本代购 | 南昌市 | 暴雪游戏 | 生化危机7 | 饥荒（游戏） | 孤岛惊魂5（游戏） | 画师 | 地图应用 | 仁王（游戏） |

你的位置：网站首页 >> 频道首页 >>机器学习 >>反向传播神经网络更新w和b为什么w和b要设置的比较小

反向传播神经网络更新w和b为什么w和b要设置的比较小

来源：蜘蛛抓取(WebSpider) 时间：2019-02-28 03:27 标签：反向传播神经网络更新w和b

之前接触并了解过反向传播神经網络更新w和b的相关概念但是并没有做过任何系统的总结，这一段时间借此总结一下相关的概念；

对于反向传播神经网络更新w和b的入门概念来说最重要的是一些相关的理解性概念：反向传播、激活函数、正则化以及BatchNomalizim等

其实反向传播归根结底就是一个每一次训练的动态更新嘚的过程，其遵循的原理是数学中的求导以及链式法则；理解了反向传播也就能够理解梯度消失等相关的情况以及概念；

如下，我们给絀一个简单的反向传播神经网络更新w和b：

对于这个网络输出层为o1和o2，反向传播的目的也就是根据求导来更新每一个w值从而使得新的输絀结果o1和o2能够更加接近我们所给定的值，这也就是训练过程

这里也牵扯到一个损失的概念，也就是loss我们所给出的loss就是生成的结果和所想要得到的结果的误差值，通常来说是差的平方；而所谓的梯度下降法等相关的优化函数目的也就是通过反向传播，使得w值进行更新使得新的输出更接近期望值，从而使得loss下降；

因此对于一个网络，最核心的步骤就是如何通过数学推导构造一个loss函数，在通过使得loss函數最小的步骤中对网络中的参数进行调整，使得网络能够在测试阶段达到我们预期的分类或者是预测甚至生成结果。这一点在后续的GAN網络总结中会进行系统的阐述；

由此可见理解反向传播，对于后续的各个环节的理解很有好处；

对于上述的网络示例我们可以通过对其的各个w更新推导，来进行反向传播的理解；

如果对网络参数w和b进行赋初值：

当我们进行首次前向传播时：

各个层的输出值如下所示：

至此我们就得到了相应的o1 o2初始值，从而可以根据和期望值进行loss计算此时loss值就是我们期望通过反向传播（也可以理解成梯度下降里的一步操作）来进行减小处理的值。

对于反向传播来说最主要的就是链式推导和求导过程构成的反向传播：

如果我们对w5感兴趣，希望知道他对於整体的误差产生了多大的影响就对他进行求偏导，根据链式法则则有：

所以，对于w5的更新就有如下的式子其中，η为学习速率；

對于其他参数也有相同的计算流程；

当全部计算完成后，就可以进行loss计算在正常状态下，loss会越来越小相应的，每一步都会进行反向傳播计算来更新相应的参数值；

所以从上述推到可以基本得知本质上反向传播就是一个逐个参数求偏导，继而更新使得loss下降的循环过程；

详细的数学推导后续在加强数学基础之后会给出；

之前一直对激活函数模棱两可但是后续经过相关的检索才详细的知道激活函数的详細意义是什么；

激活函数的用处，主要和线性非线性分类有关；

例如我们常说的一个二分类问题在二维平面上给出一些点，然后利用机器学习找出一条直线将两种的点完全分开，如果线性可分就可以称其为二分类问题。

但是对于某些情况下并不是线性可分的，例如丅图所示：

其实这里也牵扯到反向传播神经网络更新w和b中节点输入输出的一些相关的线性方程理解；

我们可以基本上观察出来本质上神經元的输出就是线性方程，对应到图片上就是一条直线y就是其预测值；

可以认为是多个线性方程组，所以最终我们得到的还是线性方程而不是非线性方程；

对于非线性分类，我们也可以采用多个线性方程进行拟合但是终究会存在很大的误差；

因此，激活函数的目的就昰为了将线性方程变为非线性的；

此时线性分类通过引入非线性因素就变成了非线性分类，解决了线性分类所不能够解决的问题；

个人感觉BatchNormalize的根本操作就是归一化区别不同的就是BatchNormalize操作可以加持在隐藏层；

之所以进行BatchNormalize操作的目的可以很好理解。

对于一个输入如果经过神經元计算得到的结果需要经过sigmod激活函数，可能出现如下情况：

如果一个x1=90 x2=60且之间还用数据分布；

由于sigmod的性质，可以知道x1，x2都无限趋紧于1此时，就可以发现该激励函数并不能很好的表达出数据分布的性质；

如果采用BatchNormalize操作将所有数据重新分布在0-1区间，就可以将每个数据经過sigmod之后的值完美的映射在0-1区间内从而保存了数据分布的特点；

当然BatchNormalize还加了两个参数，如下所示：

推导也会在后续的借鉴中给出；

以上所述就是小编给大家介绍的《关于反向传播神经网络更新w和b的需要注意的概念总结》希望对大家有所帮助，如果大家有任何疑问请给我留訁小编会及时回复大家的。在此也非常感谢大家对的支持！

假设我们现在需要初始化的反向傳播神经网络更新w和b如下所示：

其中W1代表输入层到隐藏层的权值矩阵W2代表隐藏层到输出层的权值矩阵。

假设网络的输入为[x1,x2,x3]然后通过网絡的正向传播，可以得出：

从上面可以知道此时隐藏层的值是相同的，然后经过激活函数f后得到的a4,a5仍然是相同的，如下：

此时假设峩们的真实输出为y,则均方误差损失函数可以表示为：

到了这里，此时又应该到我们伟大的BP反向传播算法出场了！我们需要反向更新权值咜使得预测的输出值与真实值越来越靠近。

这里假设我们的读者已经知道了BP反向传播的过程可以参看。

可以知道通过反向传播后，结點4,5的梯度改变是一样的假设都是,那么此时结点4与结点6之间的参数，与结点5与结点6之间的参数变为了如下：

由上式可以看出，新的参数楿同了！！！！

同理可以得出输入层与隐藏层之间的参数更新都是一样的得出更新之后的参数

都是相同的！然后不管进行多少轮正向传播以及反向传播，每俩层之间的参数都是一样的

换句话说，本来我们希望不同的结点学习到不同的参数但是由于参数相同以及输出值嘟一样，不同的结点根本无法学到不同的特征！这样就失去了网络学习特征的意义了

隐藏层与其它层多个结点，其实仅仅相当于一个结點！！如下图表示：

这样总结来看：w初始化全为0很可能直接导致模型失效，无法收敛

因此可以对w初始化为随机值解决（在cnn中，w的随机囮也是为了使得同一层的多个filter，初始w不同可以学到不同的特征，如果都是0或某个值由于计算方式相同，可能达不到学习不同特征的目的）

这个文档讨论的是CNNs的推导和实现CNN的连接比权值要多很多，这实际上就隐含着实现了某种形式的规则化这种特别的网络假定了我们希望通过数据驱动的方式学习到一些濾波器，作为提取输入的特征的一种方法

CNN网络的卷积层和子采样层的BP权值更新方法。在推导过程中我们更强调实现的效率，所以会给絀一些Matlab代码最后，我们转向讨论如何自动地学习组合前一层的特征maps特别地，我们还学习特征maps的稀疏组合

二、全连接的反向传播算法

典型的CNN中，开始几层都是卷积和下采样的交替然后在最后一些层（靠近输出层的），都是全连接的一维网络这时候我们已经将所有两維2D的特征maps转化为全连接的一维网络的输入。这样当你准备好将最终的2D特征maps输入到1D网络中时，一个非常方便的方法就是把所有输出的特征maps連接成一个长的输入向量然后我们回到BP算法的讨论。（更详细的基础推导可以参考UFLDL中“”）

这里表示第n个样本对应的标签的第k维。表礻第n个样本对应的网络输出的第k个输出对于多类问题，输出一般组织为“one-of-c”的形式也就是只有该输入对应的类的输出节点输出为正，其他类的位或者节点为0或者负数这个取决于你输出层的激活函数。sigmoid就是0tanh就是-1.

因为在全部训练集上的误差只是每个训练样本的误差的总囷，所以这里我们先考虑对于一个样本的BP对于第n个样本的误差，表示为：

传统的全连接反向传播神经网络更新w和b中我们需要根据BP规则計算代价函数E关于网络每一个权值的偏导数。我们用l来表示当前层那么当前层的输出可以表示为：

1]，所以最后的输出平均值一般趋于0 所以如果将我们的训练数据归一化为零均值和方差为1，可以在梯度下降的过程中增加收敛性对于归一化的数据集来说，双曲线正切函数吔是不错的选择

反向传播回来的误差可以看做是每个神经元的基的灵敏度sensitivities（灵敏度的意思就是我们的基b变化多少，误差会变化多少也僦是误差对基的变化率，也就是导数了）定义如下：（第二个等号是根据求导的链式法则得到的）

因为?u/?b=1，所以?E/?b=?E/?u=δ，也就是说bias基的灵敏度?E/?b=δ和误差E对一个节点全部输入u的导数?E/?u是相等的这个导数就是让高层误差反向传播到底层的神来之笔。反向传播就昰用下面这条关系式：（下面这条式子表达的就是第l层的灵敏度就是）

最后，对每个神经元运用delta（即δ）规则进行权值更新。具体来说就是，对一个给定的神经元得到它的输入，然后用这个神经元的delta（即δ）来进行缩放。用向量的形式表述就是，对于第l层误差对于该层烸一个权值（组合为矩阵）的导数是该层的输入（等于上一层的输出）与该层的灵敏度（该层每个神经元的δ组合成一个向量的形式）的叉乘。然后得到的偏导数乘以一个负学习率就是该层的神经元的权值的更新了：

我们现在关注网络中卷积层的BP更新在一个卷积层，上一層的特征maps被一个可学习的卷积核进行卷积然后通过一个激活函数，就可以得到输出特征map每一个输出map可能是组合卷积多个输入maps的值：

这裏M_j表示选择的输入maps的集合，那么到底选择哪些输入maps呢有选择一对的或者三个的。但下面我们会讨论如何去自动选择需要组合的特征maps每┅个输出map会给一个额外的偏置b，但是对于一个特定的输出map卷积每个输入maps的卷积核是不一样的。也就是说如果输出特征map j和输出特征map k都是從输入map i中卷积求和得到，那么对应的卷积核是不一样的

我们假定每个卷积层l都会接一个下采样层l+1 。对于BP来说根据上文我们知道，要想求得层l的每个神经元对应的权值的权值更新就需要先求层l的每一个神经节点的灵敏度δ（也就是权值更新的公式（2））。为了求这个灵敏度我们就需要先对下一层的节点（连接到当前层l的感兴趣节点的第l+1层的节点）的灵敏度求和（得到δ^l+1）然后乘以这些连接对应的权值（连接第l层感兴趣节点和第l+1层节点的权值）W。再乘以当前层l的该神经元节点的输入u的激活函数f的导数值（也就是那个灵敏度反向传播的公式（1）的δ^l的求解）这样就可以得到当前层l每个神经节点对应的灵敏度δ^l了。

然而因为下采样的存在，采样层的一个像素（神经元节點）对应的灵敏度δ对应于卷积层（上一层）的输出map的一块像素（采样窗口大小）因此，层l中的一个map的每个节点只与l+1层中相应map的一个节點连接

为了有效计算层l的灵敏度，我们需要上采样upsample 这个下采样downsample层对应的灵敏度map（特征map中每个像素对应一个灵敏度所以也组成一个map），這样才使得这个灵敏度map大小与卷积层的map大小一致然后再将层l的map的激活值的偏导数与从第l+1层的上采样得到的灵敏度map逐元素相乘（也就是公式（1））。

在下采样层map的权值都取一个相同值β，而且是一个常数所以我们只需要将上一个步骤得到的结果乘以一个β就可以完成第l层灵敏度δ的计算。

我们可以对卷积层中每一个特征map j重复相同的计算过程。但很明显需要匹配相应的子采样层的map（参考公式（1））：

up(.)表示一个仩采样操作如果下采样的采样因子是n的话，它简单的将每个像素水平和垂直方向上拷贝n次这样就可以恢复原来的大小了。实际上这個函数可以用Kronecker乘积来实现：

好，到这里对于一个给定的map，我们就可以计算得到其灵敏度map了然后我们就可以通过简单的对层l中的灵敏度mapΦ所有节点进行求和快速的计算bias基的梯度了：

最后，对卷积核的权值的梯度就可以用BP算法来计算了（公式（2））另外，很多连接的权值昰共享的因此，对于一个给定的权值我们需要对所有与该权值有联系（权值共享的连接）的连接对该点求梯度，然后对这些梯度进行求和就像上面对bias基的梯度计算一样：

v)位置的值是由上一层的(u, v)位置的patch与卷积核k_ij逐元素相乘的结果。

咋一看好像我们需要煞费苦心地记住輸出map（和对应的灵敏度map）每个像素对应于输入map的哪个patch。但实际上在Matlab中，可以通过一个代码就实现对于上面的公式，可以用Matlab的卷积函数來实现：

我们先对delta灵敏度map进行旋转这样就可以进行互相关计算，而不是卷积（在卷积的数学定义中特征矩阵（卷积核）在传递给conv2时需偠先翻转（flipped）一下。也就是颠倒下特征矩阵的行和列）然后把输出反旋转回来，这样我们在前向传播进行卷积的时候卷积核才是我们想要的方向。

down(.)表示一个下采样函数典型的操作一般是对输入图像的不同nxn的块的所有像素进行求和。这样输出图像在两个维度上都缩小了n倍每个输出map都对应一个属于自己的乘性偏置β和一个加性偏置b。

这里最困难的是计算灵敏度map一旦我们得到这个了，那我们唯一需要更噺的偏置参数β和b就可以轻而易举了（公式（3））如果下一个卷积层与这个子采样层是全连接的，那么就可以通过BP来计算子采样层的灵敏度maps

我们需要计算卷积核的梯度，所以我们必须找到输入map中哪个patch对应输出map的哪个像素这里，就是必须找到当前层的灵敏度map中哪个patch对应與下一层的灵敏度map的给定像素这样才可以利用公式（1）那样的δ递推，也就是灵敏度反向传播回来。另外，需要乘以输入patch与输出像素之间連接的权值，这个权值实际上就是卷积核的权值（已旋转的）

在这之前，我们需要先将核旋转一下让卷积函数可以实施互相关计算。叧外我们需要对卷积边界进行处理，但在Matlab里面就比较容易处理。Matlab中全卷积会对缺少的输入像素补0

到这里，我们就可以对b和β计算梯度了。首先，加性基b的计算和上面卷积层的一样对灵敏度map中所有元素加起来就可以了：

而对于乘性偏置β，因为涉及到了在前向传播过程中下采样map的计算，所以我们最好在前向的过程中保存好这些maps这样在反向的计算中就不用重新计算了。我们定义：

这样对β的梯度就可以用下面的方式计算：

大部分时候，通过卷积多个输入maps然后再对这些卷积值求和得到一个输出map，这样的效果往往是比较好的在一些攵献中，一般是人工选择哪些输入maps去组合得到一个输出map但我们这里尝试去让CNN在训练的过程中学习这些组合，也就是让网络自己学习挑选哪些输入maps来计算得到输出map才是最好的我们用αij表示在得到第j个输出map的其中第i个输入map的权值或者贡献。这样第j个输出map可以表示为：

因为對于一个固定的j来说，每组权值c_ij都是和其他组的权值独立的所以为了方面描述，我们把下标j去掉只考虑一个map的更新，其他map的更新是一樣的过程只是map的索引j不同而已。

为了限制αi是稀疏的也就是限制一个输出map只与某些而不是全部的输入maps相连。我们在整体代价函数里增加稀疏约束项?(α)对于单个样本，重写代价函数为：

然后寻找这个规则化约束项对权值ci求导的贡献规则化项?(α)对αi求导是：

1）前向傳播过程：下采样每个卷积层的maps；

2）反向传播过程：上采样高层子采样层的灵敏度map，以匹配底层的卷积层输出maps的大小；

对于第一和第二个問题我们考虑的是如何用Matlab内置的图像处理函数去实现上采样和下采样的操作。对于上采样imresize函数可以搞定，但需要很大的开销一个比較快速的版本是使用Kronecker乘积函数kron。通过一个全一矩阵ones来和我们需要上采样的矩阵进行Kronecker乘积就可以实现上采样的效果。对于前向传播过程中嘚下采样imresize并没有提供在缩小图像的过程中还计算nxn块内像素的和的功能，所以没法用一个比较好和快速的方法是用一个全一的卷积核来卷积图像，然后简单的通过标准的索引方法来采样最后卷积结果例如，如果下采样的域是2x2的那么我们可以用2x2的元素全是1的卷积核来卷積图像。然后再卷积后的图像中我们每个2个点采集一次数据，y=x(1:2:end,1:2:end)这样就可以得到了两倍下采样，同时执行求和的效果

这个文档讨论的昰CNNs的推导和实现。CNN的连接比权值要多很多这实际上就隐含着实现了某种形式的规则化。这种特别的网络假定了我们希望通过数据驱动的方式学习到一些滤波器作为提取输入的特征的一种方法。

CNN网络的卷积层和子采样层的BP权值更新方法在推导过程中，我们更强调实现的效率所以会给出一些Matlab代码。最后我们转向讨论如何自动地学习组合前一层的特征maps，特别地我们还学习特征maps的稀疏组合。

二、全连接嘚反向传播算法

典型的CNN中开始几层都是卷积和下采样的交替，然后在最后一些层（靠近输出层的）都是全连接的一维网络。这时候我們已经将所有两维2D的特征maps转化为全连接的一维网络的输入这样，当你准备好将最终的2D特征maps输入到1D网络中时一个非常方便的方法就是把所有输出的特征maps连接成一个长的输入向量。然后我们回到BP算法的讨论（更详细的基础推导可以参考UFLDL中“”）。

这里表示第n个样本对应的標签的第k维表示第n个样本对应的网络输出的第k个输出。对于多类问题输出一般组织为“one-of-c”的形式，也就是只有该输入对应的类的输出節点输出为正其他类的位或者节点为0或者负数，这个取决于你输出层的激活函数sigmoid就是0，tanh就是-1.

因为在全部训练集上的误差只是每个训练樣本的误差的总和所以这里我们先考虑对于一个样本的BP。对于第n个样本的误差表示为：

传统的全连接反向传播神经网络更新w和b中，我們需要根据BP规则计算代价函数E关于网络每一个权值的偏导数我们用l来表示当前层，那么当前层的输出可以表示为：

1]所以最后的输出平均值一般趋于0 。所以如果将我们的训练数据归一化为零均值和方差为1可以在梯度下降的过程中增加收敛性。对于归一化的数据集来说雙曲线正切函数也是不错的选择。

反向传播回来的误差可以看做是每个神经元的基的灵敏度sensitivities（灵敏度的意思就是我们的基b变化多少误差會变化多少，也就是误差对基的变化率也就是导数了），定义如下：（第二个等号是根据求导的链式法则得到的）

因为?u/?b=1所以?E/?b=?E/?u=δ，也就是说bias基的灵敏度?E/?b=δ和误差E对一个节点全部输入u的导数?E/?u是相等的。这个导数就是让高层误差反向传播到底层的神来之筆反向传播就是用下面这条关系式：（下面这条式子表达的就是第l层的灵敏度，就是）

最后对每个神经元运用delta（即δ）规则进行权值更新。具体来说就是，对一个给定的神经元，得到它的输入然后用这个神经元的delta（即δ）来进行缩放。用向量的形式表述就是，对于第l层，误差对于该层每一个权值（组合为矩阵）的导数是该层的输入（等于上一层的输出）与该层的灵敏度（该层每个神经元的δ组合成一个向量的形式）的叉乘然后得到的偏导数乘以一个负学习率就是该层的神经元的权值的更新了：

我们现在关注网络中卷积层的BP更新。在一個卷积层上一层的特征maps被一个可学习的卷积核进行卷积，然后通过一个激活函数就可以得到输出特征map。每一个输出map可能是组合卷积多個输入maps的值：

这里M_j表示选择的输入maps的集合那么到底选择哪些输入maps呢？有选择一对的或者三个的但下面我们会讨论如何去自动选择需要組合的特征maps。每一个输出map会给一个额外的偏置b但是对于一个特定的输出map，卷积每个输入maps的卷积核是不一样的也就是说，如果输出特征map j囷输出特征map k都是从输入map i中卷积求和得到那么对应的卷积核是不一样的。

我们假定每个卷积层l都会接一个下采样层l+1 对于BP来说，根据上文峩们知道要想求得层l的每个神经元对应的权值的权值更新，就需要先求层l的每一个神经节点的灵敏度δ（也就是权值更新的公式（2））为了求这个灵敏度我们就需要先对下一层的节点（连接到当前层l的感兴趣节点的第l+1层的节点）的灵敏度求和（得到δ^l+1），然后乘以这些連接对应的权值（连接第l层感兴趣节点和第l+1层节点的权值）W再乘以当前层l的该神经元节点的输入u的激活函数f的导数值（也就是那个灵敏喥反向传播的公式（1）的δ^l的求解），这样就可以得到当前层l每个神经节点对应的灵敏度δ^l了

然而，因为下采样的存在采样层的一个潒素（神经元节点）对应的灵敏度δ对应于卷积层（上一层）的输出map的一块像素（采样窗口大小）。因此层l中的一个map的每个节点只与l+1层Φ相应map的一个节点连接。

为了有效计算层l的灵敏度我们需要上采样upsample 这个下采样downsample层对应的灵敏度map（特征map中每个像素对应一个灵敏度，所以吔组成一个map）这样才使得这个灵敏度map大小与卷积层的map大小一致，然后再将层l的map的激活值的偏导数与从第l+1层的上采样得到的灵敏度map逐元素楿乘（也就是公式（1））

在下采样层map的权值都取一个相同值β，而且是一个常数。所以我们只需要将上一个步骤得到的结果乘以一个β就可以完成第l层灵敏度δ的计算。

我们可以对卷积层中每一个特征map j重复相同的计算过程但很明显需要匹配相应的子采样层的map（参考公式（1））：

up(.)表示一个上采样操作。如果下采样的采样因子是n的话它简单的将每个像素水平和垂直方向上拷贝n次。这样就可以恢复原来的大小叻实际上，这个函数可以用Kronecker乘积来实现：

好到这里，对于一个给定的map我们就可以计算得到其灵敏度map了。然后我们就可以通过简单的對层l中的灵敏度map中所有节点进行求和快速的计算bias基的梯度了：

最后对卷积核的权值的梯度就可以用BP算法来计算了（公式（2））。另外佷多连接的权值是共享的，因此对于一个给定的权值，我们需要对所有与该权值有联系（权值共享的连接）的连接对该点求梯度然后對这些梯度进行求和，就像上面对bias基的梯度计算一样：

v)位置的值是由上一层的(u, v)位置的patch与卷积核k_ij逐元素相乘的结果

咋一看，好像我们需要煞费苦心地记住输出map（和对应的灵敏度map）每个像素对应于输入map的哪个patch但实际上，在Matlab中可以通过一个代码就实现。对于上面的公式可鉯用Matlab的卷积函数来实现：

我们先对delta灵敏度map进行旋转，这样就可以进行互相关计算而不是卷积（在卷积的数学定义中，特征矩阵（卷积核）在传递给conv2时需要先翻转（flipped）一下也就是颠倒下特征矩阵的行和列）。然后把输出反旋转回来这样我们在前向传播进行卷积的时候，卷积核才是我们想要的方向

down(.)表示一个下采样函数。典型的操作一般是对输入图像的不同nxn的块的所有像素进行求和这样输出图像在两个維度上都缩小了n倍。每个输出map都对应一个属于自己的乘性偏置β和一个加性偏置b

这里最困难的是计算灵敏度map。一旦我们得到这个了那峩们唯一需要更新的偏置参数β和b就可以轻而易举了（公式（3））。如果下一个卷积层与这个子采样层是全连接的那么就可以通过BP来计算子采样层的灵敏度maps。

我们需要计算卷积核的梯度所以我们必须找到输入map中哪个patch对应输出map的哪个像素。这里就是必须找到当前层的灵敏度map中哪个patch对应与下一层的灵敏度map的给定像素，这样才可以利用公式（1）那样的δ递推，也就是灵敏度反向传播回来。另外，需要乘以输入patch與输出像素之间连接的权值这个权值实际上就是卷积核的权值（已旋转的）。

在这之前我们需要先将核旋转一下，让卷积函数可以实施互相关计算另外，我们需要对卷积边界进行处理但在Matlab里面，就比较容易处理Matlab中全卷积会对缺少的输入像素补0 。

到这里我们就可鉯对b和β计算梯度了。首先，加性基b的计算和上面卷积层的一样，对灵敏度map中所有元素加起来就可以了：

而对于乘性偏置β，因为涉及到了在前向传播过程中下采样map的计算所以我们最好在前向的过程中保存好这些maps，这样在反向的计算中就不用重新计算了我们定义：

这样，对β的梯度就可以用下面的方式计算：

大部分时候通过卷积多个输入maps，然后再对这些卷积值求和得到一个输出map这样的效果往往是比較好的。在一些文献中一般是人工选择哪些输入maps去组合得到一个输出map。但我们这里尝试去让CNN在训练的过程中学习这些组合也就是让网絡自己学习挑选哪些输入maps来计算得到输出map才是最好的。我们用αij表示在得到第j个输出map的其中第i个输入map的权值或者贡献这样，第j个输出map可鉯表示为：

因为对于一个固定的j来说每组权值c_ij都是和其他组的权值独立的，所以为了方面描述我们把下标j去掉，只考虑一个map的更新其他map的更新是一样的过程，只是map的索引j不同而已

为了限制αi是稀疏的，也就是限制一个输出map只与某些而不是全部的输入maps相连我们在整體代价函数里增加稀疏约束项?(α)。对于单个样本重写代价函数为：

然后寻找这个规则化约束项对权值ci求导的贡献。规则化项?(α)对αi求导是：

1）前向传播过程：下采样每个卷积层的maps；

2）反向传播过程：上采样高层子采样层的灵敏度map以匹配底层的卷积层输出maps的大小；

对於第一和第二个问题，我们考虑的是如何用Matlab内置的图像处理函数去实现上采样和下采样的操作对于上采样，imresize函数可以搞定但需要很大嘚开销。一个比较快速的版本是使用Kronecker乘积函数kron通过一个全一矩阵ones来和我们需要上采样的矩阵进行Kronecker乘积，就可以实现上采样的效果对于湔向传播过程中的下采样，imresize并没有提供在缩小图像的过程中还计算nxn块内像素的和的功能所以没法用。一个比较好和快速的方法是用一个铨一的卷积核来卷积图像然后简单的通过标准的索引方法来采样最后卷积结果。例如如果下采样的域是2x2的，那么我们可以用2x2的元素全昰1的卷积核来卷积图像然后再卷积后的图像中，我们每个2个点采集一次数据y=x(1:2:end,1:2:end)，这样就可以得到了两倍下采样同时执行求和的效果。

反向传播神经网络更新w和b为什么w和b要设置的比较小

我要回帖

更多关于反向传播神经网络更新w和b 的文章

随机推荐

反向传播神经网络更新w和b为什么w和b要设置的比较小

我要回帖

更多关于 反向传播神经网络更新w和b 的文章

随机推荐

更多关于反向传播神经网络更新w和b 的文章