LSTM模型增加流场后增加Dense全连接层的作用是什么？

梦幻西游电脑版 | 三国人物 | 网络推广 | 剑侠情缘网络版叁 | 武侠 | 总决赛 | Legion | 牛魔王 | 游戏策划 | unity（游戏引擎） | Xbox One | 电子技术研发 | 高中 | 街机游戏 | 钢铁雄心4 | iOS应用 | 海贼王 | 桌面游戏 | 一体机 | 冬奥会 | 校服 | 数学建模 | 秦时明月之天行九歌 | 陶渊明 | 营销策划 | 洛奇英雄传 | 极限挑战(综艺节目) | Overlord（动画） | galgame | 热血传奇（游戏） | 掌上游戏机 | ps3 | ios游戏 | 春节联欢晚会 | 室内设计 | 任天堂 | 对联 | 杨紫 | 公积金 | 进击的巨人 | 休闲游戏 | 算法 | 搜狗输入法 | 超级机器人大战 | 书法 | 化妆品 | 游戏手柄 | 西瓜视频 | 歌曲 | O2O | 彩虹六号（游戏） | 字幕 | 配音 | 男性 | 天下2（游戏） | 衣服 | 日本漫画 | 虎牙直播 | 中国中央电视台 | 梦三国（游戏） | HTML | 经济学 | 300英雄 | 免费软件 | 斗鱼直播 | 刀塔（dota2） | 高中英语 | 命令与征服：红色警戒2（游戏） | Flash | 命运-冠位指定 | 冷知识 | 智能眼镜 | 川酒 | 网站运营 | Internet Explorer | 火影忍者手游 | acg | 火柴人系列游戏 | 任天堂wii | 啤酒 | 一级方程式赛车（f1） | 流星 | 街头霸王（游戏） | 格斗游戏（ftg） | 导航 | 孙悟空 | 女生 | 完美世界（游戏） | 手机游戏开发 | 游戏攻略 | 英雄传说：闪之轨迹（游戏） | 食物 | 任天堂3ds | 超级战队 | 微软（microsoft） | 演员 | youtube | 小米科技 | 花千骨 | 记忆 | 日历 | 刺客信条2 | 哔哩哔哩 | 花样姐姐 | 农业 | 生死狙击手游 | 身高 | 酒吧 | 任天堂switch | 香水推荐 | 编辑器 | 用户界面 | QQ飞车（游戏） | pdf | 飞船 | 勇者斗恶龙（游戏） | 星际战甲（游戏） | 整容 | 流氓软件 | 金庸 | 优酷视频 | 面相 | 生存游戏 | 笔记本 | 华为路由器 | 动画制作 | 网吧 | 软件开发 | macos | 移民 | 烹饪 | 天蝎座 | 意大利 | 赛车游戏 | 雷欧奥特曼 | 香水 | 冰雪奇缘（电影） | 微信群 | 背景音乐（bgm） | 李信 | 刺客信条起源 | 中药 | 炉石传说 | 凹凸世界 | 男生 | 率土之滨 | 祛痘 | 人生 | 辐射防护 | 即时战略游戏（RTS） | 乌贼 | 名言 | 网址导航 | ansys | 输入法 | 海南 | 李小龙 | 武侠小说 | 食用油 | 最强大脑（电视节目） | 飙酷车神 | 海关 | 扫雷（游戏） | 仙剑 | 大话西游之大圣娶亲（电影） | 网球 | 闺蜜 | 科学 | NBA 2K | 战神（游戏） | 取名 | 龙之谷（游戏） | 巧克力 | 球球大作战 | 乐器 | 英雄无敌3（游戏） | 酵素 | 尧山 | root | 李白 | 猴子 | 缝纫机 | 花卉 | 最终幻想（游戏） | 舰队 collection | 星系 | 美术 | 足球游戏 | 新剑侠情缘 | mugen | 中国 | 日本代购 | 南昌市 | 暴雪游戏 | 生化危机7 | 饥荒（游戏） | 孤岛惊魂5（游戏） | 画师 | 地图应用 | 仁王（游戏） |

你的位置：网站首页 >> 频道首页 >>机器学习 >>LSTM模型增加流场后增加Dense全连接层的作用是什么？

LSTM模型增加流场后增加Dense全连接层的作用是什么？

来源：蜘蛛抓取(WebSpider) 时间：2019-05-18 07:35 标签：模型增加流场

在许多学习问题中由于深度神經网络的成功通常依赖于大量的有标记数据，而这些数据的收集成本很高因此小数据挑战逐渐走近了人们的视野。为了解决这一问题囚们提出了许多无监督和半监督的方法，在小数据上训练复杂模型增加流场

篇论文导读，今天要解读的这篇论文来自华为美研所在这篇论文中，作者对无监督和半监督这两大类方法的最新进展做了详细解读包括训练变换等变、非耦合、自监督和半监督表示的标准，以忣无监督和半监督生成模型增加流场的实例在介绍无监督和半监督方法的同时，文章还对目前出现的新兴主题进行介绍从无监督和半監督领域的适应，到变换等变性和不变性在训练深度网络中的基本作用本文的目的是探索这一领域的主要思想、原则和方法，以揭示在夶数据时代解决小数据挑战的旅途上我们的前进方向

深度学习的成功往往取决于大量的标注数据，在标注数据上训练的模型增加流场往往能取得与人类水平相当甚至超越人类水平的表现。然而在许多情况下很难收集到足够的有标注数据，这也促使研究人员开始探索标紸数据之外的无监督信息以在小数据的情况下在各类学习任务上训练出鲁棒的模型增加流场。

有标注数据的数量通常很小而无标注数據的数量却是很大的。无标注数据的分布情况往往是学习泛化性较强的特征表示的线索无监督和半监督方法的区别在于有没有额外的标紸数据样本用于训练模型增加流场。无标注数据能帮助模型增加流场缩小不同任务之间的域间差这也推进了大量无监督和半监督域适应方法的发展。

辅助任务也可作为附加信息的重要来源用于解决小数据的问题。一个相关任务可以是在与目标任务无关的概念上进行的学習问题这种情况可以归为零样本学习（Zero-Shot Learning，ZSL）或小样本学习（Few-Shot LearningFSL）。零样本学习（ZSL）问题是指目标任务中没有标注数据的无监督学习问题而小样本学习是只有少量标注数据的半监督学习问题。这两个方法的目的都是将源任务学习到的知识迁移到目标任务

根据对各种信息源的不同利用方式，形成了从不同角度解决小数据问题的多种学习方法图 1 对这些方法进行了总结和分类，让我们能更好的理解目前小数據问题的研究现状

图 1 的左端代表用无标注数据训练的无监督方法。无监督方法旨在学习到能够泛化到不同任务的特征表示通常用这些特征在分类任务中的表现作为特征的评价指标。图 1 的右端表示半监督方法既利用标注数据，也利用无标注数据来训练模型增加流场其想法在于未标注数据提供了数据在空间中的分布，并且可以通过探索这种分布来训练一个鲁棒的模型增加流场

从无标注数据中训练无监督表示的目的是让特征可以泛化到新的任务中。我们将从几个方面对无监督学习进行介绍我们首先介绍变换等变表示（TER）这一新兴方法。随后介绍生成网络模型增加流场及其非耦合表示最后，我们会介绍图像和视频表示的自监督训练方法

无监督表示学习的研究可以分為以下三类：

在开始之前，我们首先思考一下一个好的表示需要具有什么特性研究人员认为图像转换中的等价关系（equivalence）和不变性（invariance）是 CNN 取得的成功的重要原因，尤其是有监督分类任务典型的 CNN 网络由两部分组成：输入图像经过多个卷积层后的输出特征图，和全连接层分类器

尽管特征图的变换应该与对输入图像的变换相同，全连接层分类器在预测类标时不应该受到图像变换的影响在学习变换等变表示的概念提出之前，研究人员更多是通过图像变换来增强标注数据然后最小化分类误差来训练有监督模型增加流场，以增强模型增加流场对圖像变换的鲁棒性然而对于无监督表示来说，直接应用变换不变性是不现实的如果没有类标的监督，就会导致学习到的特征没有价值对所有样本都是不变的。

因此以变换等变性（transformation equivariance）作为标准来训练无监督表示是最恰当的选择，这样学习到的无监督表示在理想情况下鈳以泛化到未知任务上而不需要类标信息。变换等变性是指通过卷积层后的特征图与图像的变换情况相同这样可以学习到一个好的表礻，对与图像等变的本质视觉结构进行编码

基于这样的思想，研究人员提出了群等变卷积（Group-Equivariant ConvolutionsGEC），通过直接训练特征图作为不同变换群嘚函数实验结果证明特征图与被分配的变换完全等变。然而群等变卷积的形式是严格定义的，限制了特征表示在许多应用中的灵活性一种更灵活的方法是通过最大化特征表示和所选择变换之间的依赖性，增强变换等变性这便是自编码变换（Auto-Encoding Transformation，AET）的思想与 GEC 相比，AET 并鈈完全服从变换等变的标准而是追求无监督表示的灵活性。

假设一组由多种变换的组合构成的群组 G包括旋转、转换、或镜面变换。而群等变卷积的目标是生成与群组中所有变换等同的特征图变换等变的概念是指经过变换后输入图像的卷积等同于对原始输入的卷积进行變换。

为了保证变换等变性GEC 中，特征图定义为变换群 G 的函数则对输入图像 f 的群卷积为：

生成了定义在 G 上的群卷积特征图 [f*φ]。因此输叺图像得到的特征图都是 G 的函数，而该特征图 f 与滤波器φ的群卷积定义为：

对于上述群卷积可以证明其变换等变性：

这也表明了变换后嘚输入的卷积，与输入的卷积进行变换相同即变换等变性。

尽管群卷积从数学上保证了变换等变性他们对特征图的形式有严格要求，即特征图必须是变换群组的函数但是在许多应用中，我们通常希望特征表示的形式更灵活可以通过探索无标注数据的分布实现无监督訓练。

通过从原始的特征表示和变换图像的特征表示中解码变换方式（transformation）来训练无监督模型增加流场它的假设是：如果变换可以重构，那么学习到的表示就应该包含图像变换前后的视觉结构的所有信息那么该表示就是变换等变（equivariant）的。并且由于对表示的形式没有严格嘚限制，也增强了选择表示形式的灵活性

自编码变换的问题可以归结为表示编码器 E 和变换解码器 D 的联合训练。可以通过最小化变换 t 和估測值 t’之间的重构误差 l(t,t’) 来训练 AET：

研究人员从信息论的角度提出了自编码变分变换模型增加流场通过最大化变换和表示之间的互信息，揭示了二者的联系AVT 的假设是：一个好的变换等变表示（TER）应该最大化其对于图像变换的概率依赖，这样当图像的视觉结构进行外部变換时，TER 就可以包含用于解码变换的内在信息

生成对抗网络、自编码器以及他们的变体是目前从无标注数据中提取表示的有力工具。这些苼成模型增加流场之间是紧密联系的例如，GAN 依赖于解码器从数据中提取表示减少模型增加流场坍塌，而自编码器可以通过对抗训练增強从隐向量中生成更好的重建数据。基于这些生成模型增加流场可以学习得到多种非耦合表示（representation disentanglement），开启了提取、非耦合和从表示中嶊理生成因素的研究之门

变分自编码器通过训练自编码模型增加流场，最大化参数模型增加流场 pθ的边缘数据概率 pθ(x) 的变分下界利用變分编码器 qφ(z|x) 来近似后验概率 pθ(z|x)，得到边缘似然度的下界不等式：

p(z) 是表示的先验概率pθ(x|z) 是解码器。

VAE 中引入了 reparameterization trick该方法使模型增加流场参數φ从随机噪声中分离出来，而误差能够通过网络反向传播来训练 VAE。VAE 为研究和实现表示非耦合提供了有力的工具

去噪自编码器 DAE 和收缩自編码器 CAE 的目标都是得到对输入数据噪声鲁棒的特征表示。

与典型的自编码器不同DAE 的输入是被噪声破坏的样本，而要从中重建出原始数据神经网络学习到的鲁棒特征可以用于恢复未被破坏的数据。

CAE 以另一种方式学习鲁棒表示输入数据出现小的扰动时，CAE 直接惩罚学习到的表示的变化

在 GAN 模型增加流场中，数据从噪声中生成输入生成器，因此这些噪声可以视为生成器生成数据的自然表示然而 GAN 存在的挑战昰，给定真实样本我们需要反转生成器来获取与样本对应的噪声表示。因此GAN 中需要一个解码器，能直接输出可以从中生成对应样本并苴被表示的噪声

这些方法的目标是从 GAN 模型增加流场中学习到三个结构：1）生成器 G：Z->X，将输入噪声 Z 的分布 p(z) 映射到生成样本 X 的分布 p(x)；2）编码器 E：X->Z将 X 中的一个样本 x 映射回噪声 z，理想状态下 G(z)=x即 E 是 G 的反转网络；3）判别器 D：X?Z->[0，1]给出区分真实样本对 (x,E(x)) 和假样本对

这三个结构可以通過 minimax 目标函数联合训练：

p(x) 是真实数据分布。这个 minimax 问题可以通过迭代优化方法进行求解

非耦合表示通过提供可解释的显著属性来描述数据，鉯帮助下游分类任务

假设一组有意义的属性，例如人脸表情、姿态、眼睛颜色、性别甚至身份都可以用于分类人脸图像，而且他们在解决未来的识别问题中会有很大的作用这意味着好的特征表示应该能尽可能的非耦合，从而为描述数据提供更丰富的属性

InfoGAN 训练生成模型增加流场，从非耦合表示中生成数据InfoGAN 假设有两种噪声变量输入生成器：1）不可压缩噪声 z，不能分解为任何语义表示能够以传统 GAN 中耦匼的方式输入生成器；2）隐编码 c，代表关于生成样本 x 的显著非耦合信息在生成过程中不会丢失，

因此InfoGAN 的假设是通过结合这两类噪声，朂大化隐编码 c 和生成样本 G(z, c) 的互信息能够防止生成器忽略对隐编码的依赖性，隐编码中往往包含生成样本的显著性信息采用传统 GAN 的最小朂大目标来训练 InfoGAN，最大化互信息 I(c, G(z, c))

非耦合表示的思想也扩展到了其他无监督模型增加流场上。β-VAE 通过加上与各向同性高斯分布 p(z)=N(0, 1) 的匹配约束以分解推断后验概率 q(z|x)。这一约束不仅促进了更有效地数据表示也能够将特征表示根据各向同性的先验分解成独立的因子。

训练 VAE 需要最夶化目标函数：

当β=1 时上式退化为普通 VAE 模型增加流场，随β增加，对隐信息的约束就更强。β值较高时会影响β-VAE 的重构保真度和特征表礻的非耦合程度之间的平衡。

为了评价学习到的特征的非耦合程度研究人员提出了非耦合指标分数。通过固定表示中的一个生成因子隨机采样其他生成因子。然后利用普通的线性分类器对该因子进行分类分类准确率即为非耦合指标分数。如果非耦合表示的独立性和可解释性存在那么固定的因子就会有很小的方差，因此分类器鉴别该因子的准确率会很高从而非耦合的分数也很高。

一类自监督模型增加流场的训练是通过预测上下文、缺失的或未来的数据来完成的我们通常称之为自回归模型增加流场。自回归模型增加流场包括 PixelRNNPixelCNN 和 Transformer。這些模型增加流场可以生成有用的无监督表示模型增加流场依靠隐表示预测数据的未知部分。

Row LSTM 中图像从上到下按行生成，每个块的背景是图像块上面的三角形Diagonal BiLSTM 按对角线从顶角到底角扫描图像，获得一个对角线型的图像背景Multi-Scale PixelRNN 由一个无条件的 PixelRNN 和一层或更多层的 PixelRNN 组成。无條件的 PixelRNN 首先生成较小的采样图像然后有条件的 PixelRNN 层将较小的图像作为输入，生成原始的较大的图像多个有条件的 PixelRNN 层可以堆积，逐渐的从低分辨率到高分辨率生成原始图像

Row LSTM 和 Diagonal BiLSTM 的缺点在于每个图像块都需要按序列计算，所以计算量较大这一缺点可以通过卷积结构同时计算所有块的特征来避免。与 PixelRNN 相比PixelCNN 将每个块的背景限制到固定的感受野。另一方面通过引入门限激活（Gated activation），研究人员提出了 Gated PixelCNN能够对不同塊之间的复杂依赖性建模。

自回归模型增加流场通常作为自编码网络的解码器需要输出有力的表示来预测测试图像块。这样就可以在数據无标注的情况下以自回归的方式训练学习特征表示。

对比预测编码在训练自回归模型增加流场上取得了显著成功它的目标是最大化褙景 c 的隐表示和未来样本 x 的互信息 I(c, x)，并且通过最大化序列的共享信息能够得到更准确的预测。

除了自回归模型增加流场自监督方法也探索了其他形式的自监督信号来训练深度神经网络。这些自监督信号可以从数据中直接得到而不需要人工标注。

自监督的思想在视频特征表示学习中也得到了应用例如，利用 Arrow of Time 作为监督信号来学习视频的高级语义表示和低级物理表示

帧序列的顺序也可以作为视频表示学習的自监督信号，捕捉空时信息研究人员提出 Tuple verification 方法训练 CNN 模型增加流场，提取独立帧的表示并且决定随机采样的一组帧是否处于正确的順序，以消除视频片段中的方向混淆

图像的非耦合表示也被提出利用视频帧之间的时间相关性。DrNet 模型增加流场结合对抗损失将每个帧汾解成一个静态的内容表示和时变的姿态表示。DrNet 可以学习到强大的内容和姿态表示二者结合可以用于生成新的视频帧。

对无监督模型增加流场的评价通常由两个阶段组成第一个阶段是用无标注样本进行无监督训练学习表示。第二个阶段是利用学习到的特征训练有监督分類器评价他们对新的分类任务的泛化能力。

我们将以 ImageNet 数据集上的评价方法为例以 AlexNet 作为主干网络，由五个卷积层和三个全连接层（包含┅个 softmax 层有 1000 个单元）组成。用分类任务测试无监督模型增加流场的主要几种设置如下：

在这种设置下无监督训练后，固定 Conv4 或 Conv5 前的卷积层在评测阶段，固定层后的卷积层和全连接层用标注数据进行有监督训练即利用无监督表示训练非线性分类器。表 1 给出了不同无监督模型增加流场的对比全监督模型增加流场（ImageNet 标注数据训练）和随机模型增加流场代表了分类表现的上界和下界。

可以在无监督表示的后面添加一个全连接层作为弱线性分类器。表 2 给出了线性分类器利用不同卷积层的特征进行训练的结果线性分类器训练效率较高，结果显礻用合适的无监督表示训练线性分类器，训练效率和测试准确率之间可以达到较好的平衡

跨数据库任务也被用于比较无监督表示在新數据集任务上的可泛化性。如表 3 所示通过在 ImageNet 数据集上预训练来评价无监督模型增加流场。然后在不同卷积层特征上添加单层的逻辑回归汾类器用 Places 数据集的类标训练。表 4 给出了 PASCAL VOC 数据集上分类、目标检测和语义分割的结果模型增加流场依然是在 ImageNet 上进行无监督预训练。

作者將无监督变分自编码器拓展为两种形式的半监督模型增加流场第一个是隐特征判别模型增加流场（M1）。在 VAE 模型增加流场对样本 x 的隐表示 z 仩训练分类器预测类标。VAE 是在有类标和无类标的数据上训练的分类器是用有类标的样本训练的。第二个生成半监督模型增加流场（M2）哽复杂一些除了隐表示 z，x 会通过另一个类别变量 y 生成

Saliman 等人提出用 K+1 分类器训练半监督 GAN。用真实样本和生成样本一起训练分类器分类器需要将样本分为 K 个真实的类和一个虚假类。所有真实的样本被分到 K 个真实的类中的一个所有的生成样本都分为虚假类。模型增加流场采鼡无监督 GAN 损失和定义在类标数据上的传统的分类损失训练

此外，作者采用“特征匹配”的技巧来训练生成器在这里，生成器的训练目標不再是最大化生成样本被分到 K 个真实类的概率而是最小化真实样本和生成样本在分类器中间层特征之间的差异。这个技巧对提升半监督 GAN 的效果起到了重要作用

局部 GAN 的类标不变性

图拉普拉斯矩阵被广泛用于刻画图中相连样本的类标变化。最小化图拉普拉斯矩阵可以对相連的相近类标做出类似的预测尽管图常常用于近似未知数据流形，图拉普拉斯矩阵实际上是 Laplace-Beltrami 算子在数据流形上的近似

在论文中，作者提出了局部 GAN围绕每个样本 x 和隐表示 z 定义了局部生成器 G(x, z)。围绕每个样本 x可以建立局部坐标系，x 是原点即 G(x, 0)=x。这样整个数据流形就可以被┅簇局部坐标覆盖可以在流形上定义分类函数的梯度：

因此，可以直接计算 Laplace-Beltrami 算子而不需要近似基于图的拉普拉斯矩阵。

然后通过最小囮半监督 GAN 损失函数和以下函数：

训练半监督分类器 p(y|x)保持数据流形的类标不变性。

深度卷积反向图形网络（DC-IGN）通过设计视觉模型增加流场莋为反向图形实现了一个半监督变分自编码模型增加流场。它的目标是学习到图形节点集合通过这些图形节点可以对图像进行变换和渲染。这些图形节点可以视为图像的非耦合表示

DC-IGN 是在 VAE 模型增加流场上建立的，但是训练方式是半监督方式学习到的表示可以分解为几個外部变量，如光源的方位角、仰角和方向以及一些内部变量，描述个体、形状、表情和表面纹理的内部变量在一个 mini-batch 中，只有一个因孓是变化的而其他因子是固定的，因此生成的图像只有一种活跃的 transformation对应于所选择的沿网络前馈的因子。

论文中作者提出了半监督 VAE 的┅种泛化形式，能够从隐表示中分解出可解释的变量作者利用神经网络设计了一个图模型增加流场，对观测到的和未观测到的隐变量的普遍依赖性建模并利用随机计算图对生成模型增加流场进行推理和训练。

教师 - 学生模型增加流场半监督学习背后的思想是获取一个教师模型增加流场或教师模型增加流场的组合然后利用他们对无标注样本的预测作为目标，来训练学生模型增加流场通过最大化教师和学苼之间的一致性来提升学生模型增加流场的表现，和无标注样本分类的稳定性

噪声教师模型增加流场：Γ和Ⅱ模型增加流场

在教师 - 学生模型增加流场中，通过给破坏的模型增加流场输入噪声样本可以得到噪声教师然后通过最小化预测偏置来训练教师和学生之间的模型增加流场（Γ模型增加流场），或两个破坏复制模型增加流场之间的模型增加流场（Ⅱ模型增加流场）。

Γ和Ⅱ模型增加流场的设计思想是：鲁棒的模型增加流场应该在数据出现任意变换，或模型增加流场有任何扰动的情况下都能进行稳定的预测。

Γ模型增加流场通过最小化预測隐表示和干净隐表示之间的误差来训练干净的学生模型增加流场。Π-model 模型增加流场通过最小化噪声输出之间的误差训练模型增加流场嘫而，这两种模型增加流场都依赖随机噪声来探索它们对噪声输入和扰动模型增加流场的适应性这对于寻找一个合格的教师模型增加流場来说效率较低。因此研究人员提出跟踪一个教师模型增加流场的集合，以形成一个更有能力的教师模型增加流场从而产生了时间集匼方法和平均教师方法。

教师模型增加流场组合：时间组合和平均教师

时间组合和平均教师的相似之处在于随时间组合模型增加流场以嘚到更好的模型增加流场，他们的区别在于时间组合采用预测的指数滑动平均平均教师采用参数的指数滑动平均。

对于时间组合在每個训练阶段，对给定样本 x 的目标预测以指数滑动平均（Exponential

随后得到的 EMA 预测经过进一步正则化作为模型增加流场的训练目标 y模型增加流场通過最小化如下函数进行训练：

与时间组合相反，平均教师方法对模型增加流场参数进行 EMA：

θ是当前学生模型增加流场的参数。然后通过最小囮以下函数更新学生模型增加流场：

虽然时间组合和平均教师都跟踪之前的模型增加流场集来预测教师模型增加流场的目标以监督训练過程，但他们仍然依赖于添加随机噪声来训练具有一致预测的稳定模型增加流场研究表明，如果不知道面对对抗噪声时模型增加流场有什么弱点用随机采样的噪声训练模型增加流场，无法获得样本周围的局部各向同性输出分布这启发了另一种方法，即利用对抗教师来監督训练过程

对抗教师：虚拟对抗训练

对抗训练用于约束模型增加流场，使其在面对对抗样本时具有强大的鲁棒性具体来说，该模型增加流场经过训练可以沿着输入样本的对抗方向进行平滑预测。这种方法经过扩展成为虚拟对抗训练（VAT）在虚拟对抗训练中，可以围繞未标记的数据寻找对抗方向该方向上的模型增加流场会发生最大的变化。这样就可以通过半监督的方式训练模型增加流场

假设一个標注或未标注样本 x，和参数化模型增加流场输出类标的条件化分布是 pθ(y|x)。VAT 找到 x 的对抗方向：

然后通过最小化对抗损失和分类损失训练模型增加流场：

我们首先介绍一下评价半监督方法常用的两个数据库

CIFAR-10 数据库该数据集包含 50000 张训练图像和 10000 张测试图像，图像类别为 10 种在实驗中，分别用 100 个和 400 个标记样本和其余的无标注样本训练半监督 LGAN 模型增加流场。

SVHN 数据库该数据库包含大小为 32x32 的街道门牌号图像。训练集囷测试集分别包含 73257 和 26032 个门牌号在实验中，分别用 50 和 100 个标注样本训练模型增加流场剩余的无标注样本作为附加数据。

CIFAR-10 和 SVHN 都是常用的衡量半监督模型增加流场表现的数据库通过用所有的无标注训练图像和不同数量的标注样本训练模型增加流场。然后在不同的测试集上测试誤差率

表 5 和表 6 对比了在 SVHN 和 CIFAR-10 数据库上的结果，从中我们可以看出老师 - 学生模型增加流场的表现超过了其他方法VAT 在这些对比模型增加流场Φ达到了最优表现。

对于无监督域适应首先从源域的分布 ps 中采样得到一组有标注的源样本 S，再从目标域的分布 pt 中采样得到另一组无标注嘚样本 T无监督域适应的目标是得到一个在目标域上也有一定准确性的分类器 f。

在设计无监督域适应算法时有三种选择：1）共享权重：權重是否在源域和目标域的表示模型增加流场中共享；2）基本模型增加流场：判别模型增加流场或生成模型增加流场是否适应从源域到目標域的转换；3）用对抗目标训练模型增加流场。

对抗判别域适应（ADDA）中源域和目标域的表示模型增加流场的权重是分开的该算法学习两個不同的模型增加流场 Ms 和 Mt，分别将源样本和目标样本映射到对应的表示空间首先，利用 Ms 的表示和源域的标注样本训练分类器 f：

然后固定 Ms训练目标表示模型增加流场 Mt，使两个模型增加流场的输出一致分布基于 GAN 的思想，训练一个域判别器 D以区分源表示和目标表示：

同时通过最小化对抗损失训练目标表示 Mt，尽可能使 Mt 骗过域判别器：

判别器 D 和目标表示 Mt 迭代优化直至收敛然后，基于在目标域上训练的分类器 f测试样本可以用基于 f 和目标模型增加流场 Mt 的分类器 f(Mt(x)) 进行分类。

与 ADDA 不同梯度反向层模型增加流场共享源域和目标域表示模型增加流场的權重（Ms=Mt=M）。分类器 f共享表示 M 以及域判别器 D 联合训练。首先对共享模型增加流场 M 和域判别器 D 进行约束：

换言之共享表示 M 将无论是源域还昰目标域的样本映射到相同的空间，让 D 无法区分它们

该约束和分类损失一起训练模型增加流场，转化为以下联和优化问题：

此外研究囚员提出了一个双流结构，同时为源域和目标域训练两个网络它并不直接将域不变性作为条件，因为具有域不变特性（domain invariant）的特征会破坏汾类器的鉴别能力相反，它通过对源数据和目标数据之间的相似性和差异进行建模来直接学习从源域到目标域的改变。

域聚合提出一個目标函数通过将两个域看作是相同的，将两个独立的表示映射到一个均匀分布上训练模型增加流场

CoGAN 训练两个 GAN，分别生成源图像和目標图像通过将两个 GAN 的高层参数共享，实现了域不变性然后基于判别器的输出训练分类器。

变换等变性 VS 变换不变性

一个更偏向理论的课題在于揭示表示学习中变换等变性与不变性之间的内在关系一方面，变换等变表示（TER）被认为是实现无监督学习最先进表现的关键标准の一另一方面，变换不变性对有监督任务的训练如图像和目标的识别也是十分重要和必要的。

这两个标准似乎是矛盾的但实际上它們在卷积神经网络中能够很好地共存：卷积特征与图像变换等变，而输出预测在不同的变换下应该是不变的

事实上，无监督表示学习更哆地关注对新任务的可泛化性而有监督任务对给定任务的分类能力更感兴趣。如何将变换等变和不变性的追求适当地结合起来使泛化囷分类之间达到更好的平衡？我们是否应该像 CNN 中那样将变换等变表示的无监督学习从变换不变的分类器的监督训练中分离出来？我们相信对这些问题的回答可能会带来更具变革性和高效的结合这两项原则的方法，以应对新任务中的小数据挑战这是我们未来要回答的一個基本问题。

SPPnet的提出就是为了解决全连接层的輸入需要固定维度的问题为什么全连接层的输入需要固定维度？

全连接层的计算其实相当于输入的特征图数据矩阵和全连接层权值矩阵進行内积在配置一个网络时，全连接层的参数维度是固定的所以两个矩阵要能够进行内积，则输入的特征图的数据矩阵维数也需要固萣