外围串关输半关于排序算法下列说法;您说为什么这么难学？

梦幻西游电脑版 | 三国人物 | 网络推广 | 剑侠情缘网络版叁 | 武侠 | 总决赛 | Legion | 牛魔王 | 游戏策划 | unity（游戏引擎） | Xbox One | 电子技术研发 | 高中 | 街机游戏 | 钢铁雄心4 | iOS应用 | 海贼王 | 桌面游戏 | 一体机 | 冬奥会 | 校服 | 数学建模 | 秦时明月之天行九歌 | 陶渊明 | 营销策划 | 洛奇英雄传 | 极限挑战(综艺节目) | Overlord（动画） | galgame | 热血传奇（游戏） | 掌上游戏机 | ps3 | ios游戏 | 春节联欢晚会 | 室内设计 | 任天堂 | 对联 | 杨紫 | 公积金 | 进击的巨人 | 休闲游戏 | 算法 | 搜狗输入法 | 超级机器人大战 | 书法 | 化妆品 | 游戏手柄 | 西瓜视频 | 歌曲 | O2O | 彩虹六号（游戏） | 字幕 | 配音 | 男性 | 天下2（游戏） | 衣服 | 日本漫画 | 虎牙直播 | 中国中央电视台 | 梦三国（游戏） | HTML | 经济学 | 300英雄 | 免费软件 | 斗鱼直播 | 刀塔（dota2） | 高中英语 | 命令与征服：红色警戒2（游戏） | Flash | 命运-冠位指定 | 冷知识 | 智能眼镜 | 川酒 | 网站运营 | Internet Explorer | 火影忍者手游 | acg | 火柴人系列游戏 | 任天堂wii | 啤酒 | 一级方程式赛车（f1） | 流星 | 街头霸王（游戏） | 格斗游戏（ftg） | 导航 | 孙悟空 | 女生 | 完美世界（游戏） | 手机游戏开发 | 游戏攻略 | 英雄传说：闪之轨迹（游戏） | 食物 | 任天堂3ds | 超级战队 | 微软（microsoft） | 演员 | youtube | 小米科技 | 花千骨 | 记忆 | 日历 | 刺客信条2 | 哔哩哔哩 | 花样姐姐 | 农业 | 生死狙击手游 | 身高 | 酒吧 | 任天堂switch | 香水推荐 | 编辑器 | 用户界面 | QQ飞车（游戏） | pdf | 飞船 | 勇者斗恶龙（游戏） | 星际战甲（游戏） | 整容 | 流氓软件 | 金庸 | 优酷视频 | 面相 | 生存游戏 | 笔记本 | 华为路由器 | 动画制作 | 网吧 | 软件开发 | macos | 移民 | 烹饪 | 天蝎座 | 意大利 | 赛车游戏 | 雷欧奥特曼 | 香水 | 冰雪奇缘（电影） | 微信群 | 背景音乐（bgm） | 李信 | 刺客信条起源 | 中药 | 炉石传说 | 凹凸世界 | 男生 | 率土之滨 | 祛痘 | 人生 | 辐射防护 | 即时战略游戏（RTS） | 乌贼 | 名言 | 网址导航 | ansys | 输入法 | 海南 | 李小龙 | 武侠小说 | 食用油 | 最强大脑（电视节目） | 飙酷车神 | 海关 | 扫雷（游戏） | 仙剑 | 大话西游之大圣娶亲（电影） | 网球 | 闺蜜 | 科学 | NBA 2K | 战神（游戏） | 取名 | 龙之谷（游戏） | 巧克力 | 球球大作战 | 乐器 | 英雄无敌3（游戏） | 酵素 | 尧山 | root | 李白 | 猴子 | 缝纫机 | 花卉 | 最终幻想（游戏） | 舰队 collection | 星系 | 美术 | 足球游戏 | 新剑侠情缘 | mugen | 中国 | 日本代购 | 南昌市 | 暴雪游戏 | 生化危机7 | 饥荒（游戏） | 孤岛惊魂5（游戏） | 画师 | 地图应用 | 仁王（游戏） |

你的位置：网站首页 >> 频道首页 >>算法 >>外围串关输半关于排序算法下列说法;您说为什么这么难学？

外围串关输半关于排序算法下列说法;您说为什么这么难学？

来源：蜘蛛抓取(WebSpider) 时间：2017-10-29 01:17 标签：关键词提取算法

&img src=&/50/v2-b832b3f4c210c926c6678_b.jpg& data-rawwidth=&767& data-rawheight=&260& class=&origin_image zh-lightbox-thumb& width=&767& data-original=&/50/v2-b832b3f4c210c926c6678_r.jpg&&&p&&i&&b&Author: SCUT 胡杨&/b&&/i&&/p&&h2&&b&1. 基础：文本生成模型的标准框架&/b&&/h2&&p&文本生成（Text Generation）通过 &b&机器学习 + 自然语言处理&/b& 技术尝试使AI具有人类水平的语言表达能力，从一定程度上能够反应现今自然语言处理的发展水平。 &/p&&p&下面用极简的描述介绍一下文本生成技术的大体框架，具体可以参阅各种网络文献（比如：CSDN经典Blog“好玩的文本生成”[1]），论文等。&/p&&img src=&/v2-9b9b92f0d20f272b82a1_b.png& data-rawwidth=&619& data-rawheight=&138& class=&origin_image zh-lightbox-thumb& width=&619& data-original=&/v2-9b9b92f0d20f272b82a1_r.png&&&p&&br&&/p&&p&文本生成按任务来说，比较流行的有：机器翻译、句子生成、对话生成等，本文着重讨论后面两种。基于深度学习的Text Generator 通常使用循环神经网络（Basic RNN，LSTM，GRU等）进行语义建模。在句子生成任务中，一种常见的应用：“Char-RNN”（这里“Char”是广义上的称谓，可以泛指一个字符、单词或其他文本粒度单位），虽然简单基础但可以清晰度反应句子生成的运行流程，首先需要建立一个词库&b&Vocab&/b&包含可能出现的所有字符或是词汇，每次模型将预测得到句子中下一个将出现的词汇，要知道softmax输出的只是一个概率分布，其维度为词库 &b&Vocab&/b& 的size，需再通过函数将输出概率分布转化为 &b&One-hot&/b& vector，从词库 &b&Vocab&/b& 中检索得出对应的词项；在“Char-RNN”模型训练时，使用窗口在语料上滑动，窗口之内的上下文及其后紧跟的字符配合分别为一组训练样本和标签，每次以按照固定的步长滑动窗口以得出全部 “样本-标签” 对。&/p&&p&与句子生成任务类似，对话生成以每组Dialogue作为 “样本-标签” 对，循环神经网络&b&RNN_1&/b&对Dialogue上文进行编码，再用另一个循环神经网络&b&RNN_2&/b&对其进行逐词解码，并以上一个解码神经元的输出作为下一个解码神经元的输入，生成Dialogue下文，需要注意的是：在解码前需配置&b&“开始”&/b&标记 _，用于指示解码器Decoder开启Dialogue下文首词（or 字）的生成，并配置&b&“结束”&/b&标记 _，用于指示解码器结束当前的 Text Generation 进程。&/p&&img src=&/v2-efb1722083_b.png& data-rawwidth=&1884& data-rawheight=&416& class=&origin_image zh-lightbox-thumb& width=&1884& data-original=&/v2-efb1722083_r.png&&&p&&br&&/p&&p&这便是众所周知的“Seq2Seq”框架的基础形态，为了提高基础Seq2Seq模型的效果，直接从解码器的角度有诸如 &b&Beam-Search&/b&Decoder[2]、&b&Attention mechanism&/b& Decoder[3]（配置注意力机制的解码器）等改进，而从神经网络的结构入手，也有诸如Pyramidal RNN[4]（金字塔型RNN）、Hierarchical RNN Encoder[5]（分层循环网络编码器）等改进。改进不计其数，不一一详举，但不管如何，预测结果的输出始终都是一个维度为词库大小的概率分布，需要再甄选出最大值的Index，到词库&b&Vocab&/b&中检索得出对应的单词（or 字符）。&/p&&h2&&b&2. 问题：GAN为何不能直接用于文本生成&/b&&/h2&&h2&&b&2.1. GAN基础知识&/b&&/h2&&p&GAN对于大家而言想必已经脍炙人口了，这里做一些简单的复习。GAN从结构上来讲巧妙而简单（尽管有与其他经典工作Idea相似的争议[6~7]），也非常易于理解，整个模型只有两个部件：1.生成器G；2.判别器D。生成模型其实由来已久，所以生成器也并不新鲜，生成器G的目标是生成出最接近于真实样本的假样本分布，在以前没有判别器D的时候，生成器的训练依靠每轮迭代返回当前生成样本与真实样本的差异（把这个差异转化成loss）来进行参数优化，而判别器D的出现改变了这一点，判别器D的目标是尽可能准确地辨别生成样本和真实样本，而这时生成器G的训练目标就由最小化“生成-真实样本差异”变为了尽量弱化判别器D的辨别能力（这时候训练的目标函数中包含了判别器D的输出）。GAN模型的大体框架如下图所示：&/p&&img src=&/v2-13d967ddadaa3bc218cc223e113afb30_b.png& data-rawwidth=&778& data-rawheight=&308& class=&origin_image zh-lightbox-thumb& width=&778& data-original=&/v2-13d967ddadaa3bc218cc223e113afb30_r.png&&&p&&br&&/p&&p&我们再来简单复习一下GAN当中的一些重要公式，这一步对后文的阐述非常重要。不管生成器&b&G&/b&是什么形状、多么深的一个神经网络，我们暂且把它看成一个函数 &img src=&/equation?tex=G%28%5Ccdot%29& alt=&G(\cdot)& eeimg=&1&& ，由它生成的样本记作： &img src=&/equation?tex=p_g%28x%29& alt=&p_g(x)& eeimg=&1&& ，相对地，真实样本记作： &img src=&/equation?tex=p_%7Bdata%7D%28x%29& alt=&p_{data}(x)& eeimg=&1&& 。同样，不管判别器&b&D&/b&作为一个分类神经网络，我们也可将其视为一个函数 &img src=&/equation?tex=D%28%5Ccdot%29& alt=&D(\cdot)& eeimg=&1&& ，而这个函数的输出即为一个标量，用于描述生成样本 &img src=&/equation?tex=p_g%28x%29& alt=&p_g(x)& eeimg=&1&& 与真实样本 &img src=&/equation?tex=p_%7Bdata%7D%28x%29& alt=&p_{data}(x)& eeimg=&1&& 之间的差距。&/p&&p&而GAN模型的整体优化目标函数是：&/p&&p&&img src=&/equation?tex=%5Carg%5Cmin_%7BG%7D%5Cmax_%7BD%7D%3DV%28G%2CD%29& alt=&\arg\min_{G}\max_{D}=V(G,D)& eeimg=&1&&&/p&&p&其中函数 &img src=&/equation?tex=V%28G%2CD%29& alt=&V(G,D)& eeimg=&1&& 如下：&/p&&p&&img src=&/equation?tex=V%3D%5Cmathbb%7BE%7D_%7Bx+%5Csim+p_%7Bdata%7D%7D%5B%5Clog+D%28x%29%5D+%2B+%5Cmathbb%7BE%7D_%7Bx+%5Csim+p_g%7D%5B%5Clog+%281-D%28x%29%29%5D& alt=&V=\mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{x \sim p_g}[\log (1-D(x))]& eeimg=&1&&&/p&&p&根据连续函数的期望计算方法，上式变形为：&/p&&p&&img src=&/equation?tex=V%3D%5Cint_%7Bx%7D%5Cleft%5B+p_%7Bdata%7D%28x%29+%5Clog+D%28x%29+%2B+p_g%28x%29+log%281-D%28x%29%29%5Cright%5D& alt=&V=\int_{x}\left[ p_{data}(x) \log D(x) + p_g(x) log(1-D(x))\right]& eeimg=&1&&&/p&&p&先求外层的 &img src=&/equation?tex=%5Carg%5Cmax_%7BD%7DV%28G%2CD%29& alt=&\arg\max_{D}V(G,D)& eeimg=&1&& 的话，对积分符号内的多项式求导取极值得到目标&b&D：&/b&&/p&&p&&img src=&/equation?tex=D%5E%2A%28x%29%3D%5Cfrac%7Bp_%7Bdata%7D%28x%29%7D%7Bp_%7Bdata%7D%28x%29+%2B+p_g%28x%29%7D& alt=&D^*(x)=\frac{p_{data}(x)}{p_{data}(x) + p_g(x)}& eeimg=&1&&&/p&&p&代回原式：&/p&&p&&img src=&/equation?tex=%5Cbegin%7Baligned%7D+V%28G%2CD%5E%2A%29+%26%3D+%5Cint_x+p_%7Bdata%7D%28x%29%5Clog+%5Cfrac%7Bp_%7Bdata%7D%28x%29%7D%7Bp_%7Bdata%7D%28x%29+%2B+p_g%28x%29%7D+%2B+%5Cint_x+p_g+%5Clog+%5Cfrac%7Bp_g%28x%29%7D%7Bp_%7Bdata%7D%28x%29+%2B+p_g%28x%29%7D%5C%5C+%26%3D+-%5Clog+4%2B+KL%5Cleft%28+p_%7Bdata%7D%28x%29+%5CArrowvert+%5Cfrac%7Bp_%7Bdata%7D%28x%29+%2B+p_g%28x%29%7D%7B2%7D+%5Cright%29+%2B+KL%5Cleft%28+p_g%28x%29+%5CArrowvert+%5Cfrac%7Bp_%7Bdata%7D%28x%29+%2B+p_g%28x%29%7D%7B2%7D+%5Cright%29%5C%5C+%26%3D+-%5Clog+4+%2B+2%5Ccdot+JSD%28p_%7Bdata%7D%28x%29+%5CArrowvert+p_g%28x%29%29+%5Cend%7Baligned%7D& alt=&\begin{aligned} V(G,D^*) &= \int_x p_{data}(x)\log \frac{p_{data}(x)}{p_{data}(x) + p_g(x)} + \int_x p_g \log \frac{p_g(x)}{p_{data}(x) + p_g(x)}\\ &= -\log 4+ KL\left( p_{data}(x) \Arrowvert \frac{p_{data}(x) + p_g(x)}{2} \right) + KL\left( p_g(x) \Arrowvert \frac{p_{data}(x) + p_g(x)}{2} \right)\\ &= -\log 4 + 2\cdot JSD(p_{data}(x) \Arrowvert p_g(x)) \end{aligned}& eeimg=&1&&&/p&&p&所以，当生成器&b&G&/b&能生成出与真实样本一样分布的样本，那么ok，就达到最好的结果，然后大家注意一点，这里生成样本的loss衡量方法是JS散度。&/p&&h2&&b&2.2. GAN面对离散型数据时的困境（啥是离散型数据？）&/b&&/h2&&p&GAN的作者早在原版论文[8]时就提及，GAN只适用于连续型数据的生成，对于离散型数据效果不佳（使得一时风头无两的GAN在NLP领域一直无法超越生成模型的另一大佬VAE[9]）。文本数据就是最典型的一种离散型数据，这里所谓的离散，并不是指：文本由一个词一个词组成，或是说当今最流行的文本生成框架，诸如Seq2Seq，也都是逐词（或者逐个Character）生成的。因为哪怕利用非循环网路进行一次成型的Sentences生成，也无法避免“数据离散”带来的后果，抱歉都怪我年轻时的无知，离散型数据的真正含义，我们要从连续性数据说起。图像数据就是典型的连续性数据，故而GAN能够直接生成出逼真的画面来。我们首先来看看图像数据的形状：&/p&&img src=&/v2-d6d802f84e23e4aa2decaa_b.png& data-rawwidth=&1002& data-rawheight=&359& class=&origin_image zh-lightbox-thumb& width=&1002& data-original=&/v2-d6d802f84e23e4aa2decaa_r.png&&&p&&br&&/p&&p&图像数据在计算机中均被表示为矩阵，若是黑白图像矩阵中元素的值即为像素值或者灰度值（抱歉外行了，我不是做图像的），就算是彩色图像，图像张量即被多加了一阶用于表示RGB通道，图像矩阵中的元素是可微分的，其数值直接反映出图像本身的明暗，色彩等因素，很多这样的像素点组合在一起，就形成了图像，也就是说，从图像矩阵到图像，不需要“采样”（Sampling），有一个更形象的例子：画图软件中的调色板，如下图，你在调色板上随便滑动一下，大致感受一下图像数据可微分的特性。&/p&&img src=&/v2-4bf93a67a716b7b1a14dd5d1f46c7d4a_b.png& data-rawwidth=&517& data-rawheight=&228& class=&origin_image zh-lightbox-thumb& width=&517& data-original=&/v2-4bf93a67a716b7b1a14dd5d1f46c7d4a_r.png&&&p&&br&&/p&&p&文本数据可就不一样了，做文本的同学都知道，假设我们的词库（Vocabulary）大小为1000，那么每当我们预测下一个出现的词时，理应得到的是一个One-hot的Vector，这个Vector中有999项是0，只有一项是1，而这一项就代表词库中的某个词。然而，真正的隔阂在于，我们每次用无论什么分类器或者神经网络得到的直接结果，都是一个1000维的概率分布，而非正正好好是一个One-hot的Vector，即便是使用softmax作为输出，顶多也只能得到某一维上特别大，其余维上特别小的情况，而将这种输出结果过渡到One-hot vector 然后再从词库中查询出对应index的词，这样的操作被称为“Sampling”，通常，我们找出值最大的那一项设其为1，其余为0。&/p&&img src=&/v2-c63f137b83a50c62aa14ed7_b.png& data-rawwidth=&638& data-rawheight=&371& class=&origin_image zh-lightbox-thumb& width=&638& data-original=&/v2-c63f137b83a50c62aa14ed7_r.png&&&p&&br&&/p&&p&当前神经网络的优化方法大多数都是基于梯度的（Gradient based），很多文献这么说：GAN在面对离散型数据时，判别网络无法将梯度Back propagation（BP）给生成网络。这句话当时让我等听的云里雾里，不妨换一个角度理解，我们知道，基于梯度的优化方法大致意思是这样的，微调网络中的参数（weight），看看最终输出的结果有没有变得好一点，有没有达到最好的情形。&/p&&p&但是判别器&b&D&/b&得到的是Sampling之后的结果，也就是说，我们经过参数微调之后，即便softmax的输出优化了一点点，比如上图的例子中，正确结果本应是第三项，其output的倒数第二项从 &img src=&/equation?tex=0.85& alt=&0.85& eeimg=&1&& 变为了 &img src=&/equation?tex=0.65& alt=&0.65& eeimg=&1&& ，第三项从 &img src=&/equation?tex=0.12& alt=&0.12& eeimg=&1&& 变为了 &img src=&/equation?tex=0.32& alt=&0.32& eeimg=&1&& ，但是经过Sampling之后，生成器&b&G&/b&输出的结果还是跟以前一模一样，并再次将相同的答案重复输入给判别器&b&D&/b&，这样判别器&b&D&/b&给出的评价就会毫无意义，生成器&b&G&/b&的训练也会失去方向。&/p&&p&有人说，与其这样不如每次给判别器&b&D&/b&直接吃Sampling之前的结果，也就是softamx输出的那个distribution，同样，这么做也有很大的问题。我们回到GAN的基本原理，判别器&b&D&/b&的初衷，它经历训练就是为了准确辨别生成样本和真实样本的，那么生成样本是一个充满了float小数的分布，而真实样本是一个One-hot Vector，判别器&b&D&/b&很容易“作弊”，它根本不用去判断生成分布是否与真实分布更加接近，它只需要识别出给到的分布是不是除了一项是 &img src=&/equation?tex=1& alt=&1& eeimg=&1&& ，其余都是 &img src=&/equation?tex=0& alt=&0& eeimg=&1&& 就可以了。所以无论Sampling之前的分布无论多么接近于真实的One-hot Vector，只要它依然是一个概率分布，都可以被判别器&b&D&/b&轻易地检测出来。&/p&&p&上面所说的原因当然也有数学上的解释，还记得在&b&2.1&/b&节的时候，请大家注意生成样本的loss衡量标准是什么吗？没错，就是JS散度， &img src=&/equation?tex=JS-divergence& alt=&JS-divergence& eeimg=&1&& 在应用上其实是有弱点的（参考文献[10]），它只能被正常地应用于互有重叠（Overlap）的两个分布，当面对互不重叠的两个分布 &img src=&/equation?tex=P& alt=&P& eeimg=&1&& 和 &img src=&/equation?tex=Q& alt=&Q& eeimg=&1&& ，其JS散度：&/p&&p&&img src=&/equation?tex=JSD%28P+%5CArrowvert+Q%29+%5Cequiv+%5Clog%7B2%7D& alt=&JSD(P \Arrowvert Q) \equiv \log{2}& eeimg=&1&&&/p&&p&大家再想想，除非softmax能output出与真实样本 exactly 相同的独热分布（One-hot Vector）（当然这是不可能的），还有什么能让生成样本的分布与真实样本的分布发生重叠呢？于是，生成器无论怎么做基于Gradient 的优化，输出分布与真实分布的 &img src=&/equation?tex=JSD%28p_%7Bdata%7D+%5CArrowvert+p_g%29& alt=&JSD(p_{data} \Arrowvert p_g)& eeimg=&1&& 始终是 &img src=&/equation?tex=%5Clog%7B2%7D& alt=&\log{2}& eeimg=&1&& ，生成器&b&G&/b&的训练于是失去了意义。&/p&&h2&&b&3. 过渡方案：对于GAN的直接改进用于文本生成&/b&&/h2&&p&为了解决GAN在面对离散数据时的困境，最直接的想法是对GAN内部的一些计算方式进行微调，这种对于GAN内部计算方式的直接改进也显示出了一定的效果，为后面将GAN直接、流畅地应用于文本等离散型数据的生成带来了希望。接下来简单介绍相关的两篇工作[11~12]。&/p&&h2&&b&3.1. Wasserstein-divergence，额外的礼物&/b&&/h2&&p&Wasserstein GAN[13]（简称WGAN），其影响力似乎达到了原版GAN的高度，在国内也有一篇与其影响力相当的博文——“令人拍案叫绝的Wasserstein GAN”[10]，不过在看这篇论文之前，还要推荐另外一篇论文“&i&f-GAN&/i&”[14]，这篇论文利用芬切尔共轭（Fenchel Conjugate）的性质证明了任何 &img src=&/equation?tex=f-Divergence& alt=&f-Divergence& eeimg=&1&& 都可以作为原先GAN中 &img src=&/equation?tex=KL-Divergence& alt=&KL-Divergence& eeimg=&1&& （或者说 &img src=&/equation?tex=JS-Divergence& alt=&JS-Divergence& eeimg=&1&& ）的替代方案。 &i&f-GAN &/i&的定义如下：&/p&&p&&img src=&/equation?tex=D_f%28P+%5CArrowvert+Q%29+%3D+%5Cint_%7Bx%7D+q%28x%29+f%5Cleft%28+%5Cfrac%7Bp%28x%29%7D%7Bq%28x%29%7D+%5Cright%29+dx& alt=&D_f(P \Arrowvert Q) = \int_{x} q(x) f\left( \frac{p(x)}{q(x)} \right) dx& eeimg=&1&&&/p&&p&公式中的 &img src=&/equation?tex=f%28%5Ccdot%29& alt=&f(\cdot)& eeimg=&1&& 被称为 &b&f函数&/b&，它必须满足以下要求：&/p&&p&&img src=&/equation?tex=%5Cleft%5C%7B+%5Cbegin%7Baligned%7D+%26+f+%5C+is+%5C+convex+%5Cquad+%28%E5%87%B8%E5%87%BD%E6%95%B0%29+%5C%5C+%26+f%281%29+%3D+0+%5Cend%7Baligned%7D+%5Cright.& alt=&\left\{ \begin{aligned} & f \ is \ convex \quad (凸函数) \\ & f(1) = 0 \end{aligned} \right.& eeimg=&1&&&/p&&p&不难看出， &img src=&/equation?tex=KL-Divergence& alt=&KL-Divergence& eeimg=&1&& 也是 &img src=&/equation?tex=f-Divergence& alt=&f-Divergence& eeimg=&1&& 的一种，&i&f-GAN &/i&原文提供了数十种各式各样的 &img src=&/equation?tex=f-Divergence& alt=&f-Divergence& eeimg=&1&& ，为GAN接下来沿此方向上的改进带来了无限可能。&/p&&p&Wasserstein GAN 对GAN的改进也是从替换 &img src=&/equation?tex=KL-Divergence& alt=&KL-Divergence& eeimg=&1&& 这个角度对GAN进行改进，其详细的妙处大可参看文献[10,13]，总的来说，WGAN采用了一种奇特的 &b&Divergence&/b&—— “推土机-Divergence”， &img src=&/equation?tex=Wasserstein-Divergence& alt=&Wasserstein-Divergence& eeimg=&1&& 将两个分布看作两堆土，&i&Divergence&/i& 计算的就是为了将两个土堆推成一样的形状所需要泥土搬运总距离。如下图：&/p&&img src=&/v2-138c3d164c6ac0c2b349b78_b.png& data-rawwidth=&732& data-rawheight=&274& class=&origin_image zh-lightbox-thumb& width=&732& data-original=&/v2-138c3d164c6ac0c2b349b78_r.png&&&p&&br&&/p&&p&使用 &img src=&/equation?tex=Wasserstein-Divergence& alt=&Wasserstein-Divergence& eeimg=&1&& 训练的GAN相比原版的GAN有更加明显的“演化”过程，换句话说就是，WGAN的训练相比与GAN更加能突显从“不好”到“不错”的循序渐经的过程。从上面的&b&2.2&/b&节，我们知道&b&JS散度&/b&在面对两个分布不相重叠的情况时，将发生“异常”，计算结果均为 &img src=&/equation?tex=%5Clog%7B2%7D& alt=&\log{2}& eeimg=&1&& ，GAN的训练过程也是这样，也许在很长一段训练的过程中，&b&JS散度&/b&的返回值都是 &img src=&/equation?tex=%5Clog%7B2%7D& alt=&\log{2}& eeimg=&1&& ，只有到达某个临界点时，才会突然优化为接近最优值的结果，而&b&Wasserstein散度&/b&的返回值则要平滑很多。&/p&&img src=&/v2-d0a3659acd54df7abcdc8c0_b.png& data-rawwidth=&1070& data-rawheight=&306& class=&origin_image zh-lightbox-thumb& width=&1070& data-original=&/v2-d0a3659acd54df7abcdc8c0_r.png&&&p&&br&&/p&&p&既然&b&Wasserstein散度&/b&能够克服&b&JS散度&/b&的上述弱点，那么使用&b&Wasserstein GAN&/b&直接吸收生成器&b&G&/b& softmax层output的Distribution Vector 与真实样本的 One-hot Vector，用判别器&b&D&/b& 进行鉴定，即便判别器&b&D&/b&不会傻到真的被“以假乱真”，但生成器output每次更加接近于真实样本的“进步”总算还是能被传回，这样就保证了对于离散数据的对抗训练能够继续下去。不过&b&Wasserstein GAN&/b&的原著放眼于对于GAN更加远大的改进意义，并没有着重给出关于文本生成等离散数据处理的实验，反倒是后来的一篇&b&“Improved Training of Wasserstein GANs”&/b&[11]专门给出了文本生成的实验，从结果上可以看出，WGAN生成的文本虽然远不及当下最牛X的文本生成效果，但好歹能以character为单位生成出一些看上去稍微正常一点的结果了，对比之下，GAN关于文本生成的生成结果显然是崩塌的。&/p&&img src=&/v2-e84c5d480bc7_b.png& data-rawwidth=&720& data-rawheight=&268& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&/v2-e84c5d480bc7_r.png&&&p&&br&&/p&&h2&&b&3.2. Gumbel-softmax，模拟Sampling的softmax&/b&&/h2&&p&另外一篇来自华威大学+剑桥大学的工作把改进GAN用于离散数据生成的重心放在了修改softmax的output这方面。如&b&2.2&/b&节所述，Sampling 操作中的 &img src=&/equation?tex=%5Carg%5Cmax%28%5Ccdot%29& alt=&\arg\max(\cdot)& eeimg=&1&& 函数将连续的softmax输出抽取成离散的成型输出，从而导致Sampling的最终output是不可微的，形成GAN对于离散数据生成的最大拦路虎，既然不用Sampling的时候，output与真实分布不重叠，导致&b&JS散度&/b&停留于固定值 &img src=&/equation?tex=%5Clog%7B2%7D& alt=&\log{2}& eeimg=&1&& ，如果用了Sampling的话，离散数据的正常输出又造成了梯度 &i&Back-Propagation&/i& 上天然的隔阂。 &/p&&p&既然如此，论文的作者寻找了一种可以高仿出Sampling效果的特殊softmax，使得softmax的直接输出既可以保证与真实分布的重叠，又能避免Sampling操作对于其可微特征的破坏。它就是“耿贝尔-softmax”（Gumbel-Softmax），Gumbel-Softmax早先已经被应用于离散标签的再分布化[15]（Categorical Reparameterization），在原先的Sampling操作中， &img src=&/equation?tex=%5Carg%5Cmax%28%5Ccdot%29& alt=&\arg\max(\cdot)& eeimg=&1&& 函数将普通softmax的输出转化成One-hot Vector：&/p&&p&&img src=&/equation?tex=%5Cmathrm%7By%7D+%3D+one%5C_hot%5Cleft%28+%5Carg%5Cmax+%5Cleft%28+softmax%28%5Cmathrm%7Bh%7D%29+%5Cright%29+%5Cright%29& alt=&\mathrm{y} = one\_hot\left( \arg\max \left( softmax(\mathrm{h}) \right) \right)& eeimg=&1&&&/p&&p&而Gumbel-Softmax略去了 &img src=&/equation?tex=one%5C_hot%28%5Ccdot%29& alt=&one\_hot(\cdot)& eeimg=&1&& + &img src=&/equation?tex=%5Carg%5Cmax%28%5Ccdot%29& alt=&\arg\max(\cdot)& eeimg=&1&& 这一步，能够直接给出近似Sampling操作的输出：&/p&&p&&img src=&/equation?tex=%5Cmathrm%7By%7D+%3D+softmax+%5Cleft%28+1+%2F+%5Ctau+%28%5Cmathrm%7Bh%7D+%2B+%5Cmathrm%7Bg%7D%29+%5Cright%29& alt=&\mathrm{y} = softmax \left( 1 / \tau (\mathrm{h} + \mathrm{g}) \right)& eeimg=&1&&&/p&&p&精髓在于这其中的“逆温参数” &img src=&/equation?tex=%5Ctau& alt=&\tau& eeimg=&1&& ，当 &img src=&/equation?tex=%5Ctau+%5Clongrightarrow+0& alt=&\tau \longrightarrow 0& eeimg=&1&& 时，上式所输出的分布等同于 &img src=&/equation?tex=one%5C_hot%28%5Ccdot%29& alt=&one\_hot(\cdot)& eeimg=&1&& + &img src=&/equation?tex=%5Carg%5Cmax%28%5Ccdot%29& alt=&\arg\max(\cdot)& eeimg=&1&& 给出的 &i&Sampling&/i& 分布，而当 &img src=&/equation?tex=%5Ctau+%5Clongrightarrow+%5Cinfty& alt=&\tau \longrightarrow \infty& eeimg=&1&& 时，上式的输出就接近于均匀分布，而 &img src=&/equation?tex=%5Ctau& alt=&\tau& eeimg=&1&& 则作为这个特殊softmax中的一个超参数，给予一个较大的初始值，通过训练学习逐渐变小，向 &img src=&/equation?tex=0& alt=&0& eeimg=&1&& 逼近，这一部分详细内容可以阅读文献[15]。&/p&&p&&br&&/p&&img src=&/v2-624ac7c510f18db2aeadd9_b.png& data-rawwidth=&800& data-rawheight=&245& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&/v2-624ac7c510f18db2aeadd9_r.png&&&p&&br&&/p&&p&论文的实验仅仅尝试使用配合Gumbel-Softmax的GAN进行长度固定为12的 &i&Context-free grammar&/i& 序列生成，可见GAN的训练并没有崩塌，在少数样例上也得到了还算逼真的效果。&/p&&p&&br&&/p&&img src=&/v2-0d95916acfa788add11086_b.png& data-rawwidth=&519& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&519& data-original=&/v2-0d95916acfa788add11086_r.png&&&p&&br&&/p&&p&所以，对于GAN进行直接改进用于文本生成，虽说是取得了一定的成效，但距离理想的状态仍然道阻且长，有没有更好的办法呢？当然！&/p&&h2&&b&4. RL在GAN文本生成中所扮演的作用&/b&&/h2&&h2&&b&4.1. 关于Reinforcement Learning的闲聊闲扯&/b&&/h2&&p&强化学习（Reinforcement Learning，RL）由于其前卫的学习方式，本不如监督学习那么方便被全自动化地实现，并且在很多现实应用中学习周期太长，一直没有成为万众瞩目的焦点，直到围棋狗的出现，才吸引了众多人的眼球。&/p&&p&&b&RL&/b&通常是一个马尔科夫决策过程，在各个状态 &img src=&/equation?tex=s_i& alt=&s_i& eeimg=&1&& 下执行某个动作 &img src=&/equation?tex=x_i& alt=&x_i& eeimg=&1&& 都将获得奖励（或者是&负奖励&——惩罚） &img src=&/equation?tex=Reward%28s_i%2C+x_i%29& alt=&Reward(s_i, x_i)& eeimg=&1&& ，而将从头到尾所有的动作连在一起就称为一个&b&“策略”&/b&或“策略路径” &img src=&/equation?tex=%5Ctheta%5E%5Cpi& alt=&\theta^\pi& eeimg=&1&& ，强化学习的目标就是找出能够获得最多奖励的最优&b&策略&/b&：&/p&&p&&img src=&/equation?tex=%5Ctheta%5E%5Cpi_%7Bbest%7D+%3D+%5Carg%5Cmax+%5Climits_%7B%5Ctheta%5E%5Cpi%7D+%5Csum%5Climits_%7BA_i+%5Cin+%5Ctheta%5E%5Cpi_%7Bbest%7D%7D%5E%7Bi%7D+Reward%28s_i%2C+x_i%29& alt=&\theta^\pi_{best} = \arg\max \limits_{\theta^\pi} \sum\limits_{A_i \in \theta^\pi_{best}}^{i} Reward(s_i, x_i)& eeimg=&1&&&/p&&p&为了达到这个目标，强化学习机可以在各个状态尝试各种可能的动作，并通过环境（大多数是人类）反馈的奖励或者惩罚，评估并找出能够最大化 &b&期望奖励&/b& &img src=&/equation?tex=%5Cmathbb%7BE%7D%5Cleft%28+%5Csum_%7Bx_i+%5Cin+%5Ctheta%5E%5Cpi%7D%5Ei+Reward%28s_i%2C+x_i%29%2C+%5Ctheta%5E%5Cpi+%5Cright%29& alt=&\mathbb{E}\left( \sum_{x_i \in \theta^\pi}^i Reward(s_i, x_i), \theta^\pi \right)& eeimg=&1&& 的策略。 &/p&&p&其实也有人将&b&RL&/b&应用于对话生成的训练当中[16]，因为对话生成任务本身非常符合强化学习的运行机理（让人类满意，拿奖励）。设，根据输入句子 &img src=&/equation?tex=a& alt=&a& eeimg=&1&& ，返回的回答 &img src=&/equation?tex=x& alt=&x& eeimg=&1&& 从人类得到的奖励记为 &img src=&/equation?tex=R%28a%2Cx%29& alt=&R(a,x)& eeimg=&1&& ，而&b&Encoder-Decoder&/b&对话模型服从的参数被统一记为 &img src=&/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& ，则基于&b&RL&/b&的目标函数说白了就是最大化生成对话的期望奖励，其中 &img src=&/equation?tex=P_%7B%5Ctheta%7D%5Cleft%28+a%2C+x+%5Cright%29& alt=&P_{\theta}\left( a, x \right)& eeimg=&1&& 表示在参数 &img src=&/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 下，一组对话 &img src=&/equation?tex=%28a%2C+x%29& alt=&(a, x)& eeimg=&1&& 出现的概率。&/p&&p&&img src=&/equation?tex=%5Cbegin%7Baligned%7D+%5Ctheta_%7Bbest%7D+%26%3D+%5Carg+%5Cmax+%5Climits_%7B%5Ctheta%7D+%5Cmathbb%7BE%7D+%5Cleft%28+R%28a%2C+x%29+%5Cright%29+%5C%5C+%26%3D+%5Carg+%5Cmax+%5Climits_%7B%5Ctheta%7D+%5Csum%5Climits_%7Ba%7D+%5Csum%5Climits_%7Bx%7D+P_%7B%5Ctheta%7D%28a%2C+x%29+R%28a%2C+x%29+%5C%5C+%26%3D+%5Carg+%5Cmax+%5Climits_%7B%5Ctheta%7D+%5Csum%5Climits_%7Ba%7D+P%28a%29+%5Csum%5Climits_%7Bx%7D+R%28a%2C+x%29+P_%7B%5Ctheta%7D%28x+%5Cmid+a%29+%5Cend%7Baligned%7D& alt=&\begin{aligned} \theta_{best} &= \arg \max \limits_{\theta} \mathbb{E} \left( R(a, x) \right) \\ &= \arg \max \limits_{\theta} \sum\limits_{a} \sum\limits_{x} P_{\theta}(a, x) R(a, x) \\ &= \arg \max \limits_{\theta} \sum\limits_{a} P(a) \sum\limits_{x} R(a, x) P_{\theta}(x \mid a) \end{aligned}& eeimg=&1&&&/p&&p&&br&&/p&&img src=&/v2-458fb72cb21191cab587a1cf13a4f6d9_b.png& data-rawwidth=&678& data-rawheight=&281& class=&origin_image zh-lightbox-thumb& width=&678& data-original=&/v2-458fb72cb21191cab587a1cf13a4f6d9_r.png&&&p&&br&&/p&&p&既然是一个最优化的问题，很直接地便想到使用基于梯度（Gradient）的优化方法解决。当然，在强化学习中，我们要得到的是最优策略 &img src=&/equation?tex=%5Ctheta_%7Bbest%7D& alt=&\theta_{best}& eeimg=&1&& ，此过程便在强化学习领域常听到的 &b&Policy Gradient&/b&。我们把等式右边 &img src=&/equation?tex=%5Carg+%5Cmax+%5Climits_%7B%5Ctheta%7D%28%5Ccdot%29& alt=&\arg \max \limits_{\theta}(\cdot)& eeimg=&1&& 中的项单独记为 &img src=&/equation?tex=%5Ctilde%7BR_%7B%5Ctheta%7D%7D& alt=&\tilde{R_{\theta}}& eeimg=&1&& ，它表示对话模型找到最优参数时所得到的奖励期望。在实做时，设某句话的应答有$N$种可能性，则每组对话 &img src=&/equation?tex=%28a%5Ei%2C+x%5Ei%29& alt=&(a^i, x^i)& eeimg=&1&& 出现的概率可视为服从均匀分布，故还可以进行如下变形：&/p&&p&&img src=&/equation?tex=%5Cbegin%7Baligned%7D+%5Ctilde%7BR_%7B%5Ctheta%7D%7D+%26%3D+%5Csum%5Climits_%7Ba%7D+P%28a%29+%5Csum%5Climits_%7Bx%7D+R%28a%2C+x%29+P_%7B%5Ctheta%7D%28x+%5Cmid+a%29+%5C%5C+%26%5Capprox+%5Cfrac%7B1%7D%7BN%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BN%7D+R%5Cleft%28+a%5Ei%2C+x%5Ei+%5Cright%29+%5Cend%7Baligned%7D& alt=&\begin{aligned} \tilde{R_{\theta}} &= \sum\limits_{a} P(a) \sum\limits_{x} R(a, x) P_{\theta}(x \mid a) \\ &\approx \frac{1}{N} \sum\limits_{i=1}^{N} R\left( a^i, x^i \right) \end{aligned}& eeimg=&1&&&/p&&p&在优化过程中，对话模型的权重 &img src=&/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 更新如下， &img src=&/equation?tex=%5Cnabla+%5Ctilde%7BR_%7B%5Ctheta%7D%7D& alt=&\nabla \tilde{R_{\theta}}& eeimg=&1&& 为所获奖励的变化梯度，&/p&&p&&img src=&/equation?tex=%5Ctheta%5E%7Bi%2B1%7D+%5Clongleftarrow+%5Ctheta%5E%7Bi%7D+%2B+%5Ceta%5Cnabla%5Ctilde%7BR_%7B%5Ctheta%5E%7Bi%7D%7D%7D& alt=&\theta^{i+1} \longleftarrow \theta^{i} + \eta\nabla\tilde{R_{\theta^{i}}}& eeimg=&1&&&/p&&p&借助复合函数的求导法则，继续推导奖励的变化梯度，&/p&&p&&img src=&/equation?tex=%5Cbecause%5Cquad+%5Cforall+F%28x%29%2C+%5Cquad+%5Cfrac%7B1%7D%7BF%28x%29%7D+%5Cfrac%7BdF%28x%29%7D%7Bdx%7D+%3D+%5Cfrac%7Bd%5Clog+%5Cleft%28+F%28x%29+%5Cright%29%7D%7Bdx%7D& alt=&\because\quad \forall F(x), \quad \frac{1}{F(x)} \frac{dF(x)}{dx} = \frac{d\log \left( F(x) \right)}{dx}& eeimg=&1&&&/p&&p&&img src=&/equation?tex=%5Cbegin%7Baligned%7D+%5Ctherefore+%5Cquad+%5Cnabla+%5Ctilde%7BR_%7B%5Ctheta%7D%7D+%26%3D+%5Csum%5Climits_%7Ba%7D+P%28a%29+%5Csum%5Climits_%7Bx%7D+R%28a%2Cx%29+%5Cnabla+P_%7B%5Ctheta%7D%5Cleft%28+x+%5Cmid+a+%5Cright%29+%5C%5C+%26%3D%5Csum%5Climits_%7Ba%7D+P%28a%29+%5Csum%5Climits_%7Bx%7D+R%28a%2Cx%29+P_%7B%5Ctheta%7D%5Cleft%28+x+%5Cmid+a+%5Cright%29+%5Cfrac%7B%5Cnabla+P_%7B%5Ctheta%7D%5Cleft%28+x+%5Cmid+a+%5Cright%29%7D%7BP_%7B%5Ctheta%7D%5Cleft%28+x+%5Cmid+a+%5Cright%29%7D+%5C%5C+%26%3D+%5Csum%5Climits_%7Ba%7D+P%28a%29+%5Csum%5Climits_%7Bx%7D+R%28a%2Cx%29+P_%7B%5Ctheta%7D%5Cleft%28+x+%5Cmid+a+%5Cright%29+%5Cnabla%5Clog+P_%7B%5Ctheta%7D%5Cleft%28+x+%5Cmid+a+%5Cright%29+%5C%5C+%26%5Capprox+%5Cfrac%7B1%7D%7BN%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BN%7DR%5Cleft%28a%5Ei%2C+x%5Ei+%5Cright%29+%5Cnabla%5Clog+P_%7B%5Ctheta%7D%5Cleft%28+x%5Ei+%5Cmid+a%5Ei+%5Cright%29+%5Cend%7Baligned%7D+& alt=&\begin{aligned} \therefore \quad \nabla \tilde{R_{\theta}} &= \sum\limits_{a} P(a) \sum\limits_{x} R(a,x) \nabla P_{\theta}\left( x \mid a \right) \\ &=\sum\limits_{a} P(a) \sum\limits_{x} R(a,x) P_{\theta}\left( x \mid a \right) \frac{\nabla P_{\theta}\left( x \mid a \right)}{P_{\theta}\left( x \mid a \right)} \\ &= \sum\limits_{a} P(a) \sum\limits_{x} R(a,x) P_{\theta}\left( x \mid a \right) \nabla\log P_{\theta}\left( x \mid a \right) \\ &\approx \frac{1}{N} \sum\limits_{i=1}^{N}R\left(a^i, x^i \right) \nabla\log P_{\theta}\left( x^i \mid a^i \right) \end{aligned} & eeimg=&1&&&/p&&p&这样一来，梯度优化的重心就转化到了生成对话的概率上来，也就是说，通过对参数 &img src=&/equation?tex=%5Ctheta& alt=&\theta& eeimg=&1&& 进行更新，奖励会使模型趋于将优质对话的出现概率提高，而惩罚则会让模型趋于将劣质对话的出现概率降低。&/p&&p&&br&&/p&&p&自AlphaGo使得强化学习猛然进入大众视野以来，大部分对于强化学习的理论研究都将游戏作为主要实验平台，这一点不无道理，强化学习理论上的推导看似逻辑通顺，但其最大的弱点在于，基于人工评判的奖励 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& 的获得，让实验人员守在电脑前对模型吐出来的结果不停地打分看来是不现实的，游戏系统恰恰能会给出正确客观的打分（输/赢或游戏Score）。基于&b&RL&/b&的对话生成同样会面对这个问题，研究人员采用了类似AlphaGo的实现方式（AI棋手对弈）——同时运行两个机器人，让它们自己互相对话，同时，使用预训练（pre-trained）好的“打分器”给出每组对话的奖励得分 &img src=&/equation?tex=R%28a%5Ei%2C+x%5Ei%29& alt=&R(a^i, x^i)& eeimg=&1&& ，关于这个预训练的“打分器” &img src=&/equation?tex=R& alt=&R& eeimg=&1&& ，可以根据实际的应用和需求自己DIY。 &img src=&/equation?tex=R%28a%5Ei%2C+x%5Ei%29+%3D+%5Clambda_1+R%28%E6%98%AF%E5%90%A6%E9%80%9A%E9%A1%BA%29+%2B+%5Clambda_2+R%28%E6%98%AF%E5%90%A6%E8%BE%9E%E4%B8%8D%E8%BE%BE%E6%84%8F%29+%2B+%5Cdots+%2B+%5Clambda_n+R%28%E6%98%AF%E5%90%A6%E6%80%BB%E8%AF%B4%E9%87%8D%E5%A4%8D%E7%9A%84%E5%BA%9F%E8%AF%9D%29& alt=&R(a^i, x^i) = \lambda_1 R(是否通顺) + \lambda_2 R(是否辞不达意) + \dots + \lambda_n R(是否总说重复的废话)& eeimg=&1&&&/p&&p&&br&&/p&&img src=&/v2-abac05e53_b.png& data-rawwidth=&1175& data-rawheight=&182& class=&origin_image zh-lightbox-thumb& width=&1175& data-original=&/v2-abac05e53_r.png&&&p&&br&&/p&&p&稍微感受一下&b&RL&/b& ChatBot的效果：&/p&&p&&br&&/p&&img src=&/v2-e805998dcb0c79f9ac65ab73dc6696d1_b.png& data-rawwidth=&785& data-rawheight=&194& class=&origin_image zh-lightbox-thumb& width=&785& data-original=&/v2-e805998dcb0c79f9ac65ab73dc6696d1_r.png&&&p&&br&&/p&&h2&&b&4.2. SeqGAN 和 Conditional SeqGAN&/b&&/h2&&p&前面说了这么多，终于迎来到了高潮部分：RL + GAN for Text Generation，SeqGAN[17]站在前人&b&RL&/b& Text Generation的肩膀上，可以说是GAN for Text Generation中的代表作。上面虽然花了大量篇幅讲述&b&RL&/b& ChatBot的种种机理，其实都是为了它来做铺垫。试想我们使用GAN中的判别器&b&D&/b&作为强化学习中奖励 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& 的来源，假设需要生成长度为T的文本序列，则对于生成文本的奖励值 &img src=&/equation?tex=%5Ctilde%7BR_%7B%5Ctheta%7D%7D& alt=&\tilde{R_{\theta}}& eeimg=&1&& 计算可以转化为如下形式：&/p&&p&&img src=&/equation?tex=%5Ctilde%7BR_%7B%5Ctheta%7D%7D%5Cleft%28+s_%7B1%3At-1%7D+%5Cright%29+%3D+%5Cfrac%7B1%7D%7BN%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BN%7D+D%5Cleft%28s_%7B1%3At-1%7D+%2B+y%5Ei+%5Cright%29%2C+%5Cquad+y%5Ei+%5Cin+MC_%7B%5Ctheta%7D%5Cleft%28s_%7B1%3At-1%7D+%3B+N+%5Cright%29& alt=&\tilde{R_{\theta}}\left( s_{1:t-1} \right) = \frac{1}{N} \sum\limits_{i=1}^{N} D\left(s_{1:t-1} + y^i \right), \quad y^i \in MC_{\theta}\left(s_{1:t-1} ; N \right)& eeimg=&1&&&/p&&p&这里要说明几点，假设需要生成的序列总长度为 &img src=&/equation?tex=T& alt=&T& eeimg=&1&& ， &img src=&/equation?tex=s_%7B1%3At-1%7D& alt=&s_{1:t-1}& eeimg=&1&& 是指先前已经生成的部分序列（在&b&RL&/b&中可视为当前的状态），通过蒙特卡洛搜索得到 &img src=&/equation?tex=N& alt=&N& eeimg=&1&& 种后续的序列，尽管文本生成依旧是逐词寻找期望奖励最大的Action（下一个词），判别器&b&D&/b&还是以整句为单位对生成的序列给出得分 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& 。&/p&&p&在新一代的判别器 &img src=&/equation?tex=D_%7Bnext%7D& alt=&D_{next}& eeimg=&1&& 训练之前，生成器 &img src=&/equation?tex=G& alt=&G& eeimg=&1&& 根据当前判别器 &img src=&/equation?tex=D& alt=&D& eeimg=&1&& 返回的得分不断优化自己：&/p&&p&&img src=&/equation?tex=%5Ctheta%5E%7Bnext%7D+%5Clongleftarrow+%5Ctheta%5E%7Bnow%7D+%2B+%5Ceta%5Cnabla%5Ctilde%7BR_%7B%5Ctheta%5E%7Bnow%7D%7D%7D& alt=&\theta^{next} \longleftarrow \theta^{now} + \eta\nabla\tilde{R_{\theta^{now}}}& eeimg=&1&&&/p&&p&&img src=&/equation?tex=%5Cbegin%7Baligned%7D+%5Cnabla%5Ctilde%7BR_%7B%5Ctheta%7D%7D+%26%3D+%5Cfrac%7B1%7D%7BT%7D+%5Csum%5Climits_%7Bt%3D1%7D%5E%7BT%7D+%5Cleft%28%5Cfrac%7B1%7D%7BN%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BN%7D+D%5Cleft%28s_%7B1%3At-1%7D+%2B+y%5Ei+%5Cright%29+%5Cnabla%5Clog+P_%7B%5Ctheta%7D%5Cleft%28y%5Ei+%5Cmid+s_%7B1%3At-1%7D+%5Cright%29+%5Cright%29+%5C%5C+%26%3D+%5Cfrac%7B1%7D%7B%5Coverline%7BN%7D%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7B%5Coverline%7BN%7D%7D+D%5Cleft%28x%5Ei+%5Cright%29+%5Cnabla%5Clog+P_%7B%5Ctheta%7D%5Cleft%28x%5Ei+%5Cright%29%2C+%5Cqquad+%5Cleft%28+y%5Ei+%5Csubset+x%5Ei+%5C+and+%5C+s_%7B1%3At-1%7D+%2B+y%5Ei+%3D+x%5Ei+%5Cright%29+%5Cend%7Baligned%7D& alt=&\begin{aligned} \nabla\tilde{R_{\theta}} &= \frac{1}{T} \sum\limits_{t=1}^{T} \left(\frac{1}{N} \sum\limits_{i=1}^{N} D\left(s_{1:t-1} + y^i \right) \nabla\log P_{\theta}\left(y^i \mid s_{1:t-1} \right) \right) \\ &= \frac{1}{\overline{N}} \sum\limits_{i=1}^{\overline{N}} D\left(x^i \right) \nabla\log P_{\theta}\left(x^i \right), \qquad \left( y^i \subset x^i \ and \ s_{1:t-1} + y^i = x^i \right) \end{aligned}& eeimg=&1&&&/p&&p&直到生成器&b&G&/b&生成的文本足以乱真的时候，就是更新训练新判别器的时候了。一般来说，判别器&b&D&/b&对生成序列打出的得分既是其判断该序列为真实样本的概率值，按照原版GAN的理论，判别器&b&D&/b&对于 &i&real/fake &/i&样本给出的鉴定结果均为 &img src=&/equation?tex=0.5& alt=&0.5& eeimg=&1&& 时，说明生成器&b&G&/b&所生成的样本足以乱真，那么倘若在上面的任务中，判别器屡屡对生成样本打出接近甚至高出 &img src=&/equation?tex=0.5& alt=&0.5& eeimg=&1&& 的得分时，即说明判别器&b&D&/b&需要再训练了。在实做中为了方便，一般等待多轮生成器的训练后，进行一次判别器的训练。&/p&&img src=&/v2-ffec6641001bca75c3bcf6_b.png& data-rawwidth=&936& data-rawheight=&252& class=&origin_image zh-lightbox-thumb& width=&936& data-original=&/v2-ffec6641001bca75c3bcf6_r.png&&&p&&br&&/p&&p&SeqGAN的提出为GAN用于对话生成（Chatbot）完成了重要的铺垫，同样起到铺垫作用的还有另外一个GAN在图像生成领域的神奇应用——Conditional GAN[18~19]，有条件的GAN，顾名思义就是根据一定的条件生成一定的东西，该工作根据输入的文字描述作为条件，生成对应的图像，比如：&/p&&img src=&/v2-05d72e64c6bf7fe642ea_b.png& data-rawwidth=&205& data-rawheight=&187& class=&content_image& width=&205&&&p&&br&&/p&&p&对话生成可以理解为同样的模式，上一句对话作为条件，下一句应答则为要生成的数据，唯一的不同是需要生成离散的文本数据，而这个问题，SeqGAN已经帮忙解决了。综上，我自己给它起名：Conditional SeqGAN[20]。根据&b&4.1&/b&节以及本节的推导，Conditional SeqGAN中的优化梯度可写成：&/p&&p&&img src=&/equation?tex=%5Cnabla%5Ctilde%7BR_%7B%5Ctheta%7D%7D+%3D+%5Cfrac%7B1%7D%7B%5Coverline%7BN%7D%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7B%5Coverline%7BN%7D%7D+D%5Cleft%28a%5Ei%2C+x%5Ei+%5Cright%29+%5Cnabla%5Clog+P_%7B%5Ctheta%7D%5Cleft%28x%5Ei+%5Cmid+a%5Ei+%5Cright%29& alt=&\nabla\tilde{R_{\theta}} = \frac{1}{\overline{N}} \sum\limits_{i=1}^{\overline{N}} D\left(a^i, x^i \right) \nabla\log P_{\theta}\left(x^i \mid a^i \right)& eeimg=&1&&&/p&&p&不难看出，此式子与&b&4.1&/b&节中的变化梯度仅一字之差，只是把“打分器”给出的奖励得分 &img src=&/equation?tex=R%28a%5Ei%2C+x%5Ei%29& alt=&R(a^i, x^i)& eeimg=&1&& 换成了鉴别器认为生成对话来自真人的概率得分 &img src=&/equation?tex=D%5Cleft%28a%5Ei%2C+x%5Ei+%5Cright%29& alt=&D\left(a^i, x^i \right)& eeimg=&1&& 。看似差别很很小，实际上 &b&RL + GAN&/b& 的文本生成技术与单纯基于&b&RL&/b&的文本生成技术有着本质的区别：在原本的强化学习对话生成中，虽然采用了AI互相对话，并设定了 &i&jugle &/i&进行打分，但这个 &i&jugle &/i&是预训练好的，在对话模型的训练过程当中将不再发生变化；&b&RL + GAN &/b&的文本生成乃至对话模型则不同，鉴别器&b&D&/b&与生成器&b&G&/b&的训练更新将交替进行，此消彼长，故而给出奖励得分的鉴别器&b&D&/b&在这里是动态的（dynamic）。&/p&&img src=&/v2-fda9e0d6974674add48616_b.png& data-rawwidth=&975& data-rawheight=&250& class=&origin_image zh-lightbox-thumb& width=&975& data-original=&/v2-fda9e0d6974674add48616_r.png&&&p&&br&&/p&&p&RL+ GAN 利用强化学习中的 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& 机制以及 &b&Policy Gradient&/b& 等技术，巧妙地避开了GAN面对离散数据时梯度无法BP的难题，在使用强化学习的方法训练生成器&b&G&/b&的间隙，又采用对抗学习的原版方法训练判别器&b&D&/b&。在Conditional SeqGAN对话模型的一些精选结果中，RL+ GAN 训练得到的生成器时常能返回一些类似真人的逼真回答（我真有那么一丝丝接近“恐怖谷”的感受）。&/p&&img src=&/v2-3fd8813f6ccf1ea635db61bb11d8aee9_b.png& data-rawwidth=&669& data-rawheight=&297& class=&origin_image zh-lightbox-thumb& width=&669& data-original=&/v2-3fd8813f6ccf1ea635db61bb11d8aee9_r.png&&&p&&br&&/p&&h2&&b&5. 一些细节 + 一些延伸&/b&&/h2&&p&上文所述的，只是 RL + GAN 进行文本生成的基本原理，大家知道，GAN在实际运行过程中任然存在诸多不确定因素，为了尽可能优化 GAN 文本生成的效果，而后发掘更多GAN在NLP领域的潜力，还有一些值得一提的细节。&/p&&h2&&b&5.1. Reward Baseline：奖励值上的 Bias&/b&&/h2&&p&在4.2节中提到，我们采用鉴别器&b&D&/b&给予生成样本 &img src=&/equation?tex=x%5Ei& alt=&x^i& eeimg=&1&& 的概率得分（ &img src=&/equation?tex=x%5Ei& alt=&x^i& eeimg=&1&& 属于真实样本的概率）作为奖励 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& ，既然是概率值，应该意识到这些概率得分都是非负的，如此一来即便生成出再差的结果，鉴别器&b&D&/b&也不会给出负 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& 进行惩罚。从理论上来讲，生成器的训练会趋向于降低较小奖励值样本 &img src=&/equation?tex=x%5E%7Blow%7D& alt=&x^{low}& eeimg=&1&& 出现的概率而提高较大奖励值样本 &img src=&/equation?tex=x%5E%7Bhigh%7D& alt=&x^{high}& eeimg=&1&& 出现的概率，然而在实做时，由于采样不全等不可控因素的存在，这样不够分明的奖惩区别将有可能使得生成器&b&G&/b&的训练变得偏颇。&/p&&img src=&/v2-704d1bdb9e6b3d0e10d6fe6fb273b9b8_b.png& data-rawwidth=&787& data-rawheight=&234& class=&origin_image zh-lightbox-thumb& width=&787& data-original=&/v2-704d1bdb9e6b3d0e10d6fe6fb273b9b8_r.png&&&p&&br&&/p&&p&实际上，在强化学习的对话生成模型当中，就已经出现了此类问题。解决的方法很简单，我们设置一个奖励值 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& 的基准值Baseline，每次计算奖励值的时候，在后面减去这个基准值作为最终的 &b&奖励&/b& or &b&惩罚&/b& 值，使得生成器&b&G&/b&的生成结果每次得到的奖惩有正有负，显得更加分明。记奖惩基准值为 &img src=&/equation?tex=b& alt=&b& eeimg=&1&& ，则&b&4.1&/b&节中优化梯度的计算公式修改为：&/p&&p&&img src=&/equation?tex=%5Cnabla+%5Ctilde%7BR_%7B%5Ctheta%7D%7D+%3D+%5Cfrac%7B1%7D%7BN%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BN%7D%5Cleft%28R%5Cleft%28a%5Ei%2C+x%5Ei+%5Cright%29+-+b%5Cright%29+%5Cnabla%5Clog+P_%7B%5Ctheta%7D%5Cleft%28+x%5Ei+%5Cmid+a%5Ei+%5Cright%29& alt=&\nabla \tilde{R_{\theta}} = \frac{1}{N} \sum\limits_{i=1}^{N}\left(R\left(a^i, x^i \right) - b\right) \nabla\log P_{\theta}\left( x^i \mid a^i \right)& eeimg=&1&&&/p&&p&对应地，在 RL + GAN 的文本生成任务中，同样在鉴别器&b&D&/b&对各个生成样本打出的概率得分上减去奖惩基准值 &img src=&/equation?tex=b& alt=&b& eeimg=&1&& ，则4.2节中 SeqGAN 与 Conditional SeqGAN 期望奖励值的优化梯度计算公式也分别修改为如下：&/p&&p&&img src=&/equation?tex=%5Cnabla%5Ctilde%7BR_%7B%5Ctheta%7D%7D+%3D+%5Cfrac%7B1%7D%7BN%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BN%7D+%5Cleft%28D%5Cleft%28x%5Ei+%5Cright%29+-+b%5Cright%29+%5Cnabla%5Clog+P_%7B%5Ctheta%7D%5Cleft%28x%5Ei+%5Cright%29& alt=&\nabla\tilde{R_{\theta}} = \frac{1}{N} \sum\limits_{i=1}^{N} \left(D\left(x^i \right) - b\right) \nabla\log P_{\theta}\left(x^i \right)& eeimg=&1&&&/p&&p&&img src=&/equation?tex=%5Cnabla%5Ctilde%7BR_%7B%5Ctheta%7D%7D+%3D+%5Cfrac%7B1%7D%7BN%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BN%7D+%5Cleft%28D%5Cleft%28a%5Ei%2C+x%5Ei+%5Cright%29+-+b%5Cright%29+%5Cnabla%5Clog+P_%7B%5Ctheta%7D%5Cleft%28x%5Ei+%5Cmid+a%5Ei+%5Cright%29& alt=&\nabla\tilde{R_{\theta}} = \frac{1}{N} \sum\limits_{i=1}^{N} \left(D\left(a^i, x^i \right) - b\right) \nabla\log P_{\theta}\left(x^i \mid a^i \right)& eeimg=&1&&&/p&&h2&&b&5.2. REGS：一人犯错一人当&/b&&/h2&&p&细心的读者可以发现，在SeqGAN的奖励优化梯度计算公式的推导中，由鉴别器&b&D&/b&给予的生成样本奖励得分其实是顺应序列文本的生成过程，逐词产生的，可以看到之前的推导公式中显示了对于Partly文本序列的阶段性奖励值求和再求平均。然而在起初的实验中，根据最终推导的奖励值优化梯度计算公式，鉴别器&b&D&/b&被训练为用于对整句生成结果进行评估打分，这样的话，鉴别器&b&D&/b&的打分对于生成序列中的每一个token都是同等的存在，要奖励就一起奖励（奖励值可视为相同），要惩罚就一起惩罚，这种做法会导致一个后果，看下面的例子。&/p&&p&比如有这样一个对话组（包含真实回答和生成回答）：&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&question = ['你', '叫', '什么', '名字', '？']
real_answer = ['我', '叫', '张三', '。']
fake_answer = ['我', '不', '知道', '。']
&/code&&/pre&&/div&&p&很显然，鉴别器&b&D&/b&能够轻易辨识后者回答是假的，必然会给出极低的奖励值得分，但是仔细对比真/假两个回答可以发现，第一个词 “&i&我 &/i&” 其实和真实样本的第一个词是一样的，而最后一个字符 “。”其实也并无大碍，它们其实并没有错，真正错误的是 “&i&不 ” 和 “知道 &/i&” 这两个词，但很不幸，鉴别器判定 &b&&i&fake_answer&/i&&/b& 的整体回答是假的，原本无辜的词项 “&i&我 &/i&” 和 “。” 也要跟着一起接受低分判定的惩罚。&/p&&p&让我们回到 GAN + RL 对文本生成模型的优化原理，假设 &img src=&/equation?tex=P_%7B%5Ctheta%7D%5Cleft%28x%5Ei+%5Cmid+a%5Ei+%5Cright%29& alt=&P_{\theta}\left(x^i \mid a^i \right)& eeimg=&1&& 是面对输入上文 &img src=&/equation?tex=a%5Ei& alt=&a^i& eeimg=&1&& 时生成对话下文 &img src=&/equation?tex=x%5Ei& alt=&x^i& eeimg=&1&& 的概率，我们将它拆分成逐个单词拼接的形式，每一个出现的词汇都将收到之前context的影响。&/p&&p&&img src=&/equation?tex=P_%7B%5Ctheta%7D%5Cleft%28x%5Ei+%5Cmid+a%5Ei+%5Cright%29+%3D+P_%7B%5Ctheta%7D%5Cleft%28+x%5Ei%5B1%5D+%5Cbracevert+a%5Ei+%5Cright%29+%2B+P_%7B%5Ctheta%7D%5Cleft%28+x%5Ei%5B2%5D+%5Cbracevert+a%5Ei%2C+x%5Ei%5B1%5D+%5Cright%29+%2B+%5Cdots+%2B+P_%7B%5Ctheta%7D%5Cleft%28+x%5Ei%5BT%5D+%5Cbracevert+a%5Ei%2C+x%5Ei%5B1%3AT-1%5D+%5Cright%29& alt=&P_{\theta}\left(x^i \mid a^i \right) = P_{\theta}\left( x^i[1] \bracevert a^i \right) + P_{\theta}\left( x^i[2] \bracevert a^i, x^i[1] \right) + \dots + P_{\theta}\left( x^i[T] \bracevert a^i, x^i[1:T-1] \right)& eeimg=&1&&&/p&&p&在&b&4.1&/b&，&b&4.2&/b&节中提到，如果生成样本 &img src=&/equation?tex=x%5Ei& alt=&x^i& eeimg=&1&& 被鉴别器&b&D&/b&打出低分（受到惩罚），生成器&b&G&/b&将被训练于降低产出此结果的概率。结合上面这条公式，倘若单独将生成序列中的一部分前缀 &img src=&/equation?tex=x%5Ei%5B1%3At%5D& alt=&x^i[1:t]& eeimg=&1&& 拿出来与真实样本中完全相同，岂不是也要接受整体低分而带来的惩罚？&/p&&p&解决这一缺陷的直接方法就是把奖惩的判定粒度进一步细化到 word 或 character 级别，在文本逐词生成的过程中对partly的生成结果进行打分。这种处理其实在SeqGAN的论文中[17]就已经实施了，拓展到Conditional SeqGAN中，优化梯度的计算公式应改写为如下：&/p&&p&&img src=&/equation?tex=%5Cnabla%5Ctilde%7BR_%7B%5Ctheta%7D%7D+%3D+%5Cfrac%7B1%7D%7BN%7D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BN%7D+%5Csum%5Climits_%7Bt%3D1%7D%5E%7BT%7D+%5Cleft%28D_e%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%5Cright%29+-+b%5Cright%29+%5Cnabla%5Clog+P_%7B%5Ctheta%7D%5Cleft%28x%5Ei%5Bt%5D+%5Cmid+a%5Ei%2C+x%5Ei%5B1%3At-1%5D+%5Cright%29& alt=&\nabla\tilde{R_{\theta}} = \frac{1}{N} \sum\limits_{i=1}^{N} \sum\limits_{t=1}^{T} \left(D_e\left(a^i, x^i[1:t] \right) - b\right) \nabla\log P_{\theta}\left(x^i[t] \mid a^i, x^i[1:t-1] \right)& eeimg=&1&&&/p&&p&公式中， &img src=&/equation?tex=D_e%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%5Cright%29& alt=&D_e\left(a^i, x^i[1:t] \right)& eeimg=&1&& 是计算的关键，它代表鉴别器&b&D&/b&在文本逐词生成过程中获得部分文本的情况下对于最终reward的估计，简而言之就是每得到一个新的生成词，就结合此前生成的前序文本估计最终reward，并作为该生成词单独的reward，SeqGAN的论文中使用蒙特卡洛搜索[21]（Monte Carlo Search，MC search）的方法计算部分生成序列对于整体reward的估计值。而在Conditional SeqGAN的论文中，赋予了这种处理一个名字 —— &b&Reward for Every Generation Step（REGS）&/b&。&/p&&h2&&b&5.3. MC Search & Discriminator for Partially Decoded Sequences：准度与速度的抉择&/b&&/h2&&p&上一节说到SeqGAN中使用MC search进行部分序列奖励估计值 &img src=&/equation?tex=D_e%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%5Cright%29& alt=&D_e\left(a^i, x^i[1:t] \right)& eeimg=&1&& 的计算，作为&b&REGS&/b&操作的关键计算，其难处在于，我们并不能预知部分生成序列能给我们带来的最终结果，就好像一场篮球比赛，可能半场结束比分领先，却也不能妄言最终的比赛结果一样。&/p&&p&既然如此，在只得到部分序列的情况下， &img src=&/equation?tex=D_e%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%5Cright%29& alt=&D_e\left(a^i, x^i[1:t] \right)& eeimg=&1&& 只得估计获得，Monte Carlo Search[21]就是其中一种估计方法，Monte Carlo Search的思想极其简单，假设我们已经拥有了部分生成的前缀 &img src=&/equation?tex=x%5Ei%5B1%3At%5D& alt=&x^i[1:t]& eeimg=&1&& ，我们使用当前的Generator，强制固定这个前缀，并重复生成出$M$个完整的序列（有点采样实验的意思），分别交给鉴别器&b&D&/b&进行打分，这 &img src=&/equation?tex=M& alt=&M& eeimg=&1&& 个模拟样本的平均奖励得分即为部分序列 &img src=&/equation?tex=x%5Ei%5B1%3At%5D& alt=&x^i[1:t]& eeimg=&1&& 的奖励估计值 &img src=&/equation?tex=D_e%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%5Cright%29& alt=&D_e\left(a^i, x^i[1:t] \right)& eeimg=&1&& 。&/p&&p&&img src=&/equation?tex=D_e%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%5Cright%29+%3D+%5Cfrac%7B1%7D%7BM%7D+%5Csum%5Climits_%7Bp%3D1%7D%5E%7BM%7D%5Cleft%28D%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%2B+x_r%5Ep%5Bt%2B1%3AT%5D+%5Cright%29+%5Cright%29& alt=&D_e\left(a^i, x^i[1:t] \right) = \frac{1}{M} \sum\limits_{p=1}^{M}\left(D\left(a^i, x^i[1:t] + x_r^p[t+1:T] \right) \right)& eeimg=&1&&&/p&&p&当然，使用MC search的缺点也很明显：每生成一个词，就要进行 &img src=&/equation?tex=M& alt=&M& eeimg=&1&& 次生成采样，非常耗时；还有一小点，每当我们计算较为后期的一些部分序列奖励估计值的时候，总是会无法避免地再一次计算前面早期生成的项，这样计算出来的 &img src=&/equation?tex=D_e%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%5Cright%29& alt=&D_e\left(a^i, x^i[1:t] \right)& eeimg=&1&& 可能导致对于较前子序列（比如第一个词）的过拟合。&/p&&p&&br&&/p&&p&另外一种方法提出于Conditional SeqGAN的论文，干脆训练一个可以对部分已生成前缀进行打分的new鉴别器&b&D&/b&。将某真实样本的 &img src=&/equation?tex=X%5E%2B& alt=&X^+& eeimg=&1&& 的全部前缀子序列（必须从第一个词开始）集合记作 &img src=&/equation?tex=%5Cleft%5C%7Bx%5E%2B%5B1%3At%5D+%5Cright%5C%7D_%7Bt%3D1%7D%5E%7BT_%7BX%5E%2B%7D%7D& alt=&\left\{x^+[1:t] \right\}_{t=1}^{T_{X^+}}& eeimg=&1&& ，同样将某生成样本$X^-$的全部前缀子序列集合记作 &img src=&/equation?tex=%5Cleft%5C%7Bx%5E-%5B1%3At%5D+%5Cright%5C%7D_%7Bt%3D1%7D%5E%7BT_%7BX%5E-%7D%7D& alt=&\left\{x^-[1:t] \right\}_{t=1}^{T_{X^-}}& eeimg=&1&& ，我们每次从这两者中随机挑选一个或若干个标定为 &img src=&/equation?tex=%2B& alt=&+& eeimg=&1&& 或 &img src=&/equation?tex=-& alt=&-& eeimg=&1&& （与原序列相同），与原序列一同加入鉴别器&b&D&/b&的训练中，这样训练得到的Discriminator便增添了给前缀子序列打分的能力，直接使用这样的Discriminator给前缀子序列打分即可获得 &img src=&/equation?tex=D_e%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%5Cright%29& alt=&D_e\left(a^i, x^i[1:t] \right)& eeimg=&1&& 。这种方法的耗时比起使用MC search要少很多，但得损失一定的准度。&/p&&p&&br&&/p&&p&一句话总结两种 &img src=&/equation?tex=D_e%5Cleft%28a%5Ei%2C+x%5Ei%5B1%3At%5D+%5Cright%29& alt=&D_e\left(a^i, x^i[1:t] \right)& eeimg=&1&& 的计算方法：一种是利用部分序列YY出完整序列来给鉴别器打分，而另一种则直接将部分序列加入鉴别器的训练过程，得到可以为部分序列打分的鉴别器，一个较慢，另一个快却损失准度，如何选择就看大家了。&/p&&h2&&b&5.4. Teacher Forcing：给Generator一个榜样&/b&&/h2&&p&在开始讲解SeqGAN中的Teacher Forcing之前，先帮助大家简单了结一下RNN运行的两种mode：(1). Free-running mode；(2). Teacher-Forcing mode[22]。前者就是正常的RNN运行方式：上一个state的输出就做为下一个state的输入，这样做时有风险的，因为在RNN训练的早期，靠前的state中如果出现了极差的结果，那么后面的全部state都会受牵连，以至于最终结果非常不好也很难溯源到发生错误的源头，而后者Teacher-Forcing mode的做法就是，每次不使用上一个state的输出作为下一个state的输入，而是直接使用ground truth的对应上一项作为下一个state的输入。&/p&&img src=&/v2-df417acbc6a43d539ebad13c17cffc3c_b.png& data-rawwidth=&690& data-rawheight=&232& class=&origin_image zh-lightbox-thumb& width=&690& data-original=&/v2-df417acbc6a43d539ebad13c17cffc3c_r.png&&&p&&br&&/p&&p&就拿Seq2Seq模型来举例，我们假设正输出到第三项，准备生成第四项：&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&input = ['a', 'b', 'c', 'e', 'f', 'g', 'h']
output = ['o', 'p', 's', ...]
label = ['o', 'p', 'q', 'r', 's', 't', 'u']
&/code&&/pre&&/div&&p&Free-running mode下的decoder会将第三项错误的输出 &i&&b&output[2] = 's'&/b&&/i&（下标从0开始）作为下一个state的输入，而在Teacher-forcing mode下，decoder则会将正确样本的第三项
&i&&b&label[2] = 'q' &/b&&/i&作为下一个state的输入。当然这么做也有它的缺点，因为依赖标签数据，在training的时候会有较好的效果，但是在testing的时候就不能得到ground truth的支持了。最好的结果是将Free-running mode的behavior训练得尽可能接近于Teacher-forcing mode，Professor Forcing[23]使用GAN尝试实现了这一目标。&/p&&p&当然，这些都是题外话，我们要回到Teacher-Forcing mode最初的motivation：训练（迭代）早期的RNN非常弱，几乎不能给出好的生成结果（以至于破灌破摔，产生垃圾的output影响后面的state），必须依靠ground truth强行扶着走，才能慢慢进入正轨。&/p&&p&SeqGAN也存在这样的问题，一开始的生成器&b&G&/b&非常弱，即便是经过一定量的预训练，也几乎生成不出好的Result，然后这些bad result给到鉴别器&b&D&/b&必然只能返回很低的 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& （惩罚），生成器&b&G&/b&的训练只能根据鉴别器的打分来优化而无法得到good example的指导，永远不知道什么是好的结果，结果必然是恶性循环。于是，有必要在SeqGAN训练中给到生成器&b&G&/b&真实样本的指导，也就是告诉生成器：“什么样的样本才配得到高分 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& ?” &/p&&p&4.2节中提到，生成器&b&G&/b& 和判别器&b&D&/b&的训练时交替进行的，由于鉴别器返回的打分是判定输入样本为真的概率，我们可以随机取出一部分真实的样本对话组 &img src=&/equation?tex=%5Cmathrm%7BReal%7D+%3D+%5Cleft%5C%7B+%5Cleft%28a_r%5E0%2C+x_r%5E0+%5Cright%29%2C+%5Cleft%28a_r%5E1%2C+x_r%5E1+%5Cright%29%2C+%5Ccdots%2C+%5Cleft%28a_r%5En%2C+x_r%5En+%5Cright%29+%5Cright%5C%7D& alt=&\mathrm{Real} = \left\{ \left(a_r^0, x_r^0 \right), \left(a_r^1, x_r^1 \right), \cdots, \left(a_r^n, x_r^n \right) \right\}& eeimg=&1&& ，然后直接设置他们的鉴别器奖励值为 &img src=&/equation?tex=1& alt=&1& eeimg=&1&& （或者其他任意定义的最高分），将它们加入生成器&b&G&/b&的训练过程中，这样生成器就能知道何种样本能得到最高的奖励，从而一定程度上避免了SeqGAN的训练过程由于一方的弱势而发生崩塌。&/p&&p&&img src=&/equation?tex=D%5Cleft%28a_r%5Ei%2C+x_r%5Ei%5Cright%29+%3D+1%2C+%5Cqquad+%5Cleft%28%5Cleft%28a_r%5Ei%2C+x_r%5Ei%5Cright%29+%5Cin+%5Cmathrm%7BReal%7D+%5Cright%29& alt=&D\left(a_r^i, x_r^i\right) = 1, \qquad \left(\left(a_r^i, x_r^i\right) \in \mathrm{Real} \right)& eeimg=&1&&&/p&&p&或者也可以这样：用训练好的鉴别器&b&D&/b&也为随机抽样的真实样本打分，然后加入到生成器&b&G&/b&的训练过程中，不过，一定要确保鉴别器&b&D&/b&已经得到充分训练，至少给予任意真实样本 &img src=&/equation?tex=%5Cleft%28a_r%5Ei%2C+x_r%5Ei+%5Cright%29& alt=&\left(a_r^i, x_r^i \right)& eeimg=&1&& 的打分要高于baseline才行（奖励值经过偏置处理后也必须为正）。&/p&&p&&img src=&/equation?tex=D%5Cleft%28a_r%5Ei%2C+x_r%5Ei%5Cright%29+%3E+b%2C+%5Cqquad+%5Cleft%28%5Cleft%28a_r%5Ei%2C+x_r%5Ei%5Cright%29+%5Cin+%5Cmathrm%7BReal%7D+%5Cright%29& alt=&D\left(a_r^i, x_r^i\right) & b, \qquad \left(\left(a_r^i, x_r^i\right) \in \mathrm{Real} \right)& eeimg=&1&&&/p&&h2&&b&5.5. Actor-Critic：更广义上的GAN？&/b&&/h2&&p&在DeepMind的一篇半综述式的文章[24]中，谈到了强化学习中的另一个特殊的模型——Actor-Critic，并分析了这个模型与GAN之间的联系。&/p&&p&首先我们回顾一下GAN中鉴别器&b&D&/b&和生成器&b&G&/b&优化时的目标函数：&/p&&p&&img src=&/equation?tex=D%5E%2A+%3D+%5Carg%5Cmin_D+-%5Cmathbb%7BE%7D_%7Bx+%5Csim+p_%7Bdata%7D%7D%5B%5Clog+D%28x%29%5D+-+%5Cmathbb%7BE%7D_%7Bz+%5Csim+%5Cmathcal%7BN%7D%5Cleft%280%2C+I%5Cright%29%7D%5B%5Clog+%281-D%28G%28z%29%29%29%5D& alt=&D^* = \arg\min_D -\mathbb{E}_{x \sim p_{data}}[\log D(x)] - \mathbb{E}_{z \sim \mathcal{N}\left(0, I\right)}[\log (1-D(G(z)))]& eeimg=&1&&&/p&&p&&img src=&/equation?tex=G%5E%2A+%3D+%5Carg%5Cmin_G+%5Cmathbb%7BE%7D_%7Bz+%5Csim+%5Cmathcal%7BN%7D%5Cleft%280%2C+I%5Cright%29%7D%5B%5Clog+%281-D%28G%28z%29%29%29%5D+%3D+%5Carg%5Cmin_G+-%5Cmathbb%7BE%7D_%7Bz+%5Csim+%5Cmathcal%7BN%7D%5Cleft%280%2C+I%5Cright%29%7D%5B%5Clog+%28D%28G%28z%29%29%29%5D& alt=&G^* = \arg\min_G \mathbb{E}_{z \sim \mathcal{N}\left(0, I\right)}[\log (1-D(G(z)))] = \arg\min_G -\mathbb{E}_{z \sim \mathcal{N}\left(0, I\right)}[\log (D(G(z)))]& eeimg=&1&&&/p&&p&&br&&/p&&p&再说说强化学习，在基于策略迭代的强化学习中，通过尝试当前策略的action，从环境获得 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& ，然后更新策略。这种操作在游戏实验环境中非常有效，因为游戏系统有封闭且清晰的环境，能够稳定地根据各种接收到的action客观地给出对应 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& ，而在现实生活中，很多时候并没有封闭清晰的环境，给定action应该得到什么样的 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& 本身也不准确，只能通过设定DIY的打分器来实现，显然这么做很难完美model真实世界千变万化的情况。&/p&&p&那么，能不能先学习出一个能够准确评估出奖励值的值函数 &img src=&/equation?tex=Q%5E%7B%5Cpi%7D%28s%2Ca%29& alt=&Q^{\pi}(s,a)& eeimg=&1&& ，尽可能地描述环境，对各种action返回较为公正的预期奖励呢？也就是说 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& 的估计模型本身也是被学习的，这就是Actor-Critic，Actor部分采用传统的Policy Gradient优化策略 &img src=&/equation?tex=%5Cpi& alt=&\pi& eeimg=&1&& ，Critic部分借助“Q-Learning”学习出最优的action-value值函数，听起来有没有点像GAN的模式？来看看它的目标函数，其中 &img src=&/equation?tex=%5Cmathcal%7BD%7D%5Cleft%28%5Ccdot+%5CArrowvert+%5Ccdot%5Cright%29& alt=&\mathcal{D}\left(\cdot \Arrowvert \cdot\right)& eeimg=&1&& 指任意一中Divergence，值域非负当且仅当两个分布相同时取值为零即可（比如，KL-divergence， JS-divergence 等等）：&/p&&p&&img src=&/equation?tex=Q%5E%7B%5Cpi%7D+%3D+%5Carg%5Cmin_Q+%5Cmathbb%7BE%7D_%7Bs_t%2C+a_t+%5Csim+%5Cpi%7D%5Cleft%5B%5Cmathcal%7BD%7D%5Cleft%28%5Cmathbb%7BE%7D_%7Bs_%7Bt%2B1%7D%2C+r_t%2C+a_%7Bt%2B1%7D%7D+%5Cleft%5Br_t+%2B+%5Cgamma+Q%5Cleft%28s_%7Bt%2B1%7D%2C+a_%7Bt%2B1%7D+%5Cright%29+%5Cright%5D+%5CArrowvert+Q%28s_t%2C+a_t%29+%5Cright%29+%5Cright%5D& alt=&Q^{\pi} = \arg\min_Q \mathbb{E}_{s_t, a_t \sim \pi}\left[\mathcal{D}\left(\mathbb{E}_{s_{t+1}, r_t, a_{t+1}} \left[r_t + \gamma Q\left(s_{t+1}, a_{t+1} \right) \right] \Arrowvert Q(s_t, a_t) \right) \right]& eeimg=&1&&&/p&&p&&img src=&/equation?tex=%7B%5Cpi%7D%5E%7B%5Cast%7D+%3D+%5Carg%5Cmax_%7B%5Cpi%7D+%5Cmathbb%7BE%7D_%7Bs_0+%5Csim+p_0%2C+a_0+%5Csim+%5Cpi%7D%5Cleft%5BQ%5E%7B%5Cpi%7D%5Cleft%28s_0%2C+a_0+%5Cright%29+%5Cright%5D+%3D+%5Carg%5Cmin_%7B%5Cpi%7D+-%5Cmathbb%7BE%7D_%7Bs_0+%5Csim+p_0%2C+a_0+%5Csim+%5Cpi%7D%5Cleft%5BQ%5E%7B%5Cpi%7D%5Cleft%28s_0%2C+a_0+%5Cright%29+%5Cright%5D& alt=&{\pi}^{\ast} = \arg\max_{\pi} \mathbb{E}_{s_0 \sim p_0, a_0 \sim \pi}\left[Q^{\pi}\left(s_0, a_0 \right) \right] = \arg\min_{\pi} -\mathbb{E}_{s_0 \sim p_0, a_0 \sim \pi}\left[Q^{\pi}\left(s_0, a_0 \right) \right]& eeimg=&1&&&/p&&p&文中将GANs模型比作一种特殊形式的Actor-Critic，并比较了两者各自的特点以及后续的改进技术在两者上的适配情况。试想一下，既然强化学习技术帮助GAN解决了在离散型数据上的梯度传播问题，那么同为强化学习的Actor-Critic也为对抗式文本生成提供了另外一种可能。&/p&&p&&br&&/p&&img src=&/v2-545fd70e89fe76f8c6d6e6_b.png& data-rawwidth=&418& data-rawheight=&284& class=&content_image& width=&418&&&p&&br&&/p&&h2&&b&5.6. IRGAN：两个检索模型的对抗&/b&&/h2&&p&IRGAN[25]这篇工作发表于2017年的SIGIR，从作者的阵容来看就注定不是一篇平凡的作品，其中就包含SeqGAN的原班人马，作者将生成对抗网络的思想应用于信息检索领域，却又不拘泥于传统GAN的经典Framework，而是利用了IR领域原本就存在的两种不同路数的model：&b&生成式IR模型&/b& 和 &b&判别式IR模型&/b&。&/p&&p&生成式IR模型目标是产生一个query &img src=&/equation?tex=%5Crightarrow& alt=&\rightarrow& eeimg=&1&& document的关联度分布，利用这个分布对每个输入的query返回相关的检索结果；而判别式IR模型看上去更像是一个二类分类器，它的目标是尽可能地区分有关联查询对&b&&i&&query_r, document_r&&/i&&/b&和无关联查询对&b&&i&&query_f, document_f&&/i&&/b&，对于给定的查询对&b&&i&&query, document&&/i&&/b&，判别式IR模型给出该查询对中的两项的关联程度。&/p&&p&光从两个模型简单的介绍来看就能丝丝感觉到它们之间特殊的联系，两种风格迥异的IR模型在GAN的思想中“有缘地”走到了对立面，我们将生成式IR模型记作： &img src=&/equation?tex=p_%5Ctheta+%5Cleft%28d+%5Cmid+q%2Cr+%5Cright%29& alt=&p_\theta \left(d \mid q,r \right)& eeimg=&1&& ，将判别式IR模型记作： &img src=&/equation?tex=f_%5Cphi+%5Cleft%28q%2Cd+%5Cright%29& alt=&f_\phi \left(q,d \right)& eeimg=&1&& ，于是整个IRGAN的目标函数为：&/p&&p&&img src=&/equation?tex=J%5E%7BG%5E%5Cast%2C+D%5E%5Cast%7D+%3D+%5Cmin_%7B%5Ctheta%7D+%5Cmax_%7B%5Cphi%7D+%5Csum%5Climits_%7Bn%3D1%7D%5EN+%5Cleft%28%5Cmathbb%7BE%7D_%7Bd+%5Csim+p_%7Breal%7D%5Cleft%28d+%5Cmid+q_n%2Cr+%5Cright%29%7D%5Cleft%5B%5Clog+D%5Cleft%28d+%5Cmid+q_n+%5Cright%29+%5Cright%5D+%2B+%5Cmathbb%7BE%7D_%7Bd+%5Csim+p_%7B%5Ctheta%7D%5Cleft%28d+%5Cmid+q_n%2Cr+%5Cright%29%7D%5Cleft%5B%5Clog+%5Cleft%281+-+D%5Cleft%28d+%5Cmid+q_n+%5Cright%29+%5Cright%29%5Cright%5D+%5Cright%29& alt=&J^{G^\ast, D^\ast} = \min_{\theta} \max_{\phi} \sum\limits_{n=1}^N \left(\mathbb{E}_{d \sim p_{real}\left(d \mid q_n,r \right)}\left[\log D\left(d \mid q_n \right) \right] + \mathbb{E}_{d \sim p_{\theta}\left(d \mid q_n,r \right)}\left[\log \left(1 - D\left(d \mid q_n \right) \right)\right] \right)& eeimg=&1&&&/p&&p&在IRGAN中，鉴别器&b&D&/b&定义为判别式IR模型的逻辑回归：&/p&&p&&img src=&/equation?tex=D%5Cleft%28d+%5Cmid+q+%5Cright%29+%3D+%5Csigma+%5Cleft%28f_%5Cphi+%5Cleft%28d%2Cq+%5Cright%29+%5Cright%29+%3D+%5Cfrac%7B%5Cexp+%5Cleft%28f_%5Cphi+%5Cleft%28d%2Cq+%5Cright%29+%5Cright%29%7D%7B1+%2B+%5Cexp+%5Cleft%28f_%5Cphi+%5Cleft%28d%2Cq+%5Cright%29+%5Cright%29%7D& alt=&D\left(d \mid q \right) = \sigma \left(f_\phi \left(d,q \right) \right) = \frac{\exp \left(f_\phi \left(d,q \right) \right)}{1 + \exp \left(f_\phi \left(d,q \right) \right)}& eeimg=&1&&&/p&&p&于是鉴别器&b&D&/b&的目标函数进一步写为：&/p&&p&&img src=&/equation?tex=%5Cphi%5E%5Cast+%3D+%5Carg%5Cmax_%7B%5Cphi%7D+%5Csum%5Climits_%7Bn%3D1%7D%5EN+%5Cleft%28%5Cmathbb%7BE%7D_%7Bd+%5Csim+p_%7Breal%7D%5Cleft%28d+%5Cmid+q_n%2Cr+%5Cright%29%7D%5Cleft%5B%5Clog+%5Cleft%28%5Csigma%5Cleft%28f_%5Cphi%5Cleft%28d%2C+q_n+%5Cright%29%5Cright%29%5Cright%29+%5Cright%5D+%2B+%5Cmathbb%7BE%7D_%7Bd+%5Csim+p_%7B%5Ctheta%7D%5Cleft%28d+%5Cmid+q_n%2Cr+%5Cright%29%7D%5Cleft%5B%5Clog+%5Cleft%281+-+%5Csigma%5Cleft%28f_%5Cphi%5Cleft%28d%2C+q_n+%5Cright%29%5Cright%29+%5Cright%29%5Cright%5D+%5Cright%29& alt=&\phi^\ast = \arg\max_{\phi} \sum\limits_{n=1}^N \left(\mathbb{E}_{d \sim p_{real}\left(d \mid q_n,r \right)}\left[\log \left(\sigma\left(f_\phi\left(d, q_n \right)\right)\right) \right] + \mathbb{E}_{d \sim p_{\theta}\left(d \mid q_n,r \right)}\left[\log \left(1 - \sigma\left(f_\phi\left(d, q_n \right)\right) \right)\right] \right)& eeimg=&1&&&/p&&p&相对地，生成器&b&G&/b&就直接输出以query为condition答案池中所有document与该query的关联分布，不幸地，我们必须将通过这个关联分布，过滤出当前认为最相关的document答案，才能作为鉴别器&b&D&/b&的输入来判定此时此刻检索结果的质量，原本连续型的分布经过这一步的折腾又变成离散型的数据了，还好,我们有强化学习，设 &img src=&/equation?tex=Reward+%5Cleft%28%5Ccdot+%5Cright%29%3D+%5Clog%5Cleft%281+%2B+%5Cexp%5Cleft%28f_%5Cphi+%5Cleft%28%5Ccdot+%5Cright%29+%5Cright%29+%5Cright%29& alt=&Reward \left(\cdot \right)= \log\left(1 + \exp\left(f_\phi \left(\cdot \right) \right) \right)& eeimg=&1&& ，则生成器&b&G&/b&的目标函数被写成：&/p&&p&&img src=&/equation?tex=%5Ctheta%5E%5Cast+%3D+%5Carg%5Cmin_%7B%5Ctheta%7D+%5Csum%5Climits_%7Bn%3D1%7D%5E%7BN%7D+%5Cmathbb%7BE%7D_%7Bd+%5Csim+p_%7B%5Ctheta%7D%5Cleft%28d+%5Cmid+q_n%2C+r+%5Cright%29%7D%5Cleft%5B%5Clog%5Cleft%281+%2B+%5Cexp%5Cleft%28f_%5Cphi+%5Cleft%28d%2C+q_n+%5Cright%29+%5Cright%29+%5Cright%29+%5Cright%5D& alt=&\theta^\ast = \arg\min_{\theta} \sum\limits_{n=1}^{N} \mathbb{E}_{d \sim p_{\theta}\left(d \mid q_n, r \right)}\left[\log\left(1 + \exp\left(f_\phi \left(d, q_n \right) \right) \right) \right]& eeimg=&1&&&/p&&p&也就是最大化鉴别器&b&D&/b&给出的奖励，而这个奖励值主要来源于检索结果形成的查询对 &img src=&/equation?tex=%5Cleft%28d%2C+q_n+%5Cright%29& alt=&\left(d, q_n \right)& eeimg=&1&& 在判别式IR模型中被认为确实有关联的概率之和。将求和符号内的项记作： &img src=&/equation?tex=J%5EG+%5Cleft%28q_n+%5Cright%29& alt=&J^G \left(q_n \right)& eeimg=&1&& ，按照Policy Gradient的方式进行梯度优化，并使用4.1节中的推导方法描述 &img src=&/equation?tex=J%5EG+%5Cleft%28q_n+%5Cright%29& alt=&J^G \left(q_n \right)& eeimg=&1&& 的优化梯度，在实做时为了方便，采样 &img src=&/equation?tex=k& alt=&k& eeimg=&1&& 个当前生成式IR模型给出的查询结果求近似。&/p&&p&&img src=&/equation?tex=%5Cbegin%7Baligned%7D+%5Cnabla_%5Ctheta+J%5EG+%5Cleft%28q_n+%5Cright%29+%26%3D+%5Cnabla_%5Ctheta+%5Cmathbb%7BE%7D_%7Bd+%5Csim+p_%5Ctheta+%5Cleft%28d+%5Cmid+q_n%2C+r+%5Cright%29%7D+%5Cleft%5B%5Clog%5Cleft%281+%2B+%5Cexp%5Cleft%28f_%5Cphi+%5Cleft%28d%2C+q_n+%5Cright%29+%5Cright%29+%5Cright%29+-+b+%5Cright%5D+%5C%5C+%26%3D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BM%7D+%5Cnabla_%5Ctheta+p_%5Ctheta+%5Cleft%28d_i+%5Cmid+q_n%2C+r+%5Cright%29+%5Cleft%5B%5Clog%5Cleft%281+%2B+%5Cexp%5Cleft%28f_%5Cphi+%5Cleft%28d_i%2C+q_n+%5Cright%29+%5Cright%29+%5Cright%29+-+b+%5Cright%5D+%5C%5C+%26%3D+%5Csum%5Climits_%7Bi%3D1%7D%5E%7BM%7D+p_%5Ctheta+%5Cleft%28d_i+%5Cmid+q_n%2C+r+%5Cright%29+%5Cnabla_%5Ctheta+%5Clog+p_%5Ctheta+%5Cleft%28d_i+%5Cmid+q_n%2C+r+%5Cright%29+%5Cleft%5B%5Clog%5Cleft%281+%2B+%5Cexp%5Cleft%28f_%5Cphi+%5Cleft%28d_i%2C+q_n+%5Cright%29+%5Cright%29+%5Cright%29+-+b+%5Cright%5D+%5C%5C+%26%5Csimeq+%5Cfrac%7B1%7D%7BK%7D+%5Csum%5Climits_%7Bk%3D1%7D%5E%7BK%7D+%5Cnabla_%5Ctheta+%5Clog+p_%5Ctheta+%5Cleft%28d_k+%5Cmid+q_n%2C+r+%5Cright%29+%5Cleft%5B%5Clog%5Cleft%281+%2B+%5Cexp%5Cleft%28f_%5Cphi+%5Cleft%28d_k%2C+q_n+%5Cright%29+%5Cright%29+%5Cright%29+-+b+%5Cright%5D+%5Cend%7Baligned%7D& alt=&\begin{aligned} \nabla_\theta J^G \left(q_n \right) &= \nabla_\theta \mathbb{E}_{d \sim p_\theta \left(d \mid q_n, r \right)} \left[\log\left(1 + \exp\left(f_\phi \left(d, q_n \right) \right) \right) - b \right] \\ &= \sum\limits_{i=1}^{M} \nabla_\theta p_\theta \left(d_i \mid q_n, r \right) \left[\log\left(1 + \exp\left(f_\phi \left(d_i, q_n \right) \right) \right) - b \right] \\ &= \sum\limits_{i=1}^{M} p_\theta \left(d_i \mid q_n, r \right) \nabla_\theta \log p_\theta \left(d_i \mid q_n, r \right) \left[\log\left(1 + \exp\left(f_\phi \left(d_i, q_n \right) \right) \right) - b \right] \\ &\simeq \frac{1}{K} \sum\limits_{k=1}^{K} \nabla_\theta \log p_\theta \left(d_k \mid q_n, r \right) \left[\log\left(1 + \exp\left(f_\phi \left(d_k, q_n \right) \right) \right) - b \right] \end{aligned}& eeimg=&1&&&/p&&p&当然，也不能忘了我们的baseline—— &img src=&/equation?tex=b& alt=&b& eeimg=&1&& ，文中设置baseline为当前查询结果的平均期望 &img src=&/equation?tex=Reward& alt=&Reward& eeimg=&1&& 。&/p&&p&&img src=&/equation?tex=b+%3D+%5Cmathbb%7BE%7D_%7Bd+%5Csim+p_%5Ctheta+%5Cleft%28d+%5Cmid+q_n%2C+r+%5Cright%29%7D+%5Cleft%5B%5Clog%5Cleft%281+%2B+%5Cexp%5Cleft%28f_%5Cphi+%5Cleft%28d%2C+q_n+%5Cright%29+%5Cright%29+%5Cright%29+%5Cright%5D& alt=&b = \mathbb{E}_{d \sim p_\theta \left(d \mid q_n, r \right)} \left[\log\left(1 + \exp\left(f_\phi \left(d, q_n \right) \right) \right) \right]& eeimg=&1&&&/p&&p&&br&&/p&&p&上述是针对Pointwise情形的IR任务，不同于Pointwise情形着重于得到直接的检索结果，Pairwise情形的IR把更多精力放在了ranking上，其返回结果 &img src=&/equation?tex=R_n+%3D+%5Cleft%5C%7B%5Clangle+d_i%2C+d_j%5Crangle+%5Cmid+d_i+%5Csucc+d_j+%5Cright%5C%7D& alt=&R_n = \left\{\langle d_i, d_j\rangle \mid d_i \succ d_j \right\}& eeimg=&1&& 中全是非对称二元对，其中 &img src=&/equation?tex=d_i& alt=&d_i& eeimg=&1&& 比 &img src=&/equation?tex=d_j& alt=&d_j& eeimg=&1&& 与当前的查询项关联性更高。IRGAN也可以扩展到Pairwise的情形，原则是：“一切从减”。鉴别器函数将改写为：&/p&&p&&img src=&/equation?tex=D%5Cleft%28%5Clangle+d_i%2C+d_j%5Crangle+%5Cmid+q+%5Cright%29+%3D+%5Csigma+%5Cleft%28f_%5Cphi+%5Cleft%28d_i%2C+q+%5Cright%29+-+f_%5Cphi+%5Cleft%28d_j%2C+q+%5Cright%29%5Cright%29+%3D+%5Cfrac%7B%5Cexp+%5Cleft%28f_%5Cphi+%5Cleft%28d_i%2C+q+%5Cright%29+-+f_%5Cphi+%5Cleft%28d_j%2C+q+%5Cright%29%5Cright%29%7D%7B1+%2B+%5Cexp+%5Cleft%28f_%5Cphi+%5Cleft%28d_i%2C+q+%5Cright%29+-+f_%5Cphi+%5Cleft%28d_j%2C+q+%5Cright%29%5Cright%29%7D& alt=&D\left(\langle d_i, d_j\rangle \mid q \right) = \sigma \left(f_\phi \left(d_i, q \right) - f_\phi \left(d_j, q \right)\right) = \frac{\exp \left(f_\phi \left(d_i, q \right) - f_\phi \left(d_j, q \right)\right)}{1 + \exp \left(f_\phi \left(d_i, q \right) - f_\phi \left(d_j, q \right)\right)}& eeimg=&1&&&/p&&p&而假设生成器&b&G&/b&是一个softmax函数，则Pairwise情形下的变形和简化推导如下：&/p&&p&&img src=&/equation?tex=p_%5Ctheta+%5Cleft%28d_k+%5Cmid+q%2C+r%5Cright%29+%3D+%5Cfrac%7B%5Cexp+%5Cleft%28g_%5Ctheta+%5Cleft%28d_k%2C+q+%5Cright%29%5Cright%29%7D%7B%5Csum_d%5Cexp+%5Cleft%28g_%5Ctheta+%5Cleft%28d_k%2C+q+%5Cright%29%5Cright%29%7D& alt=&p_\theta \left(d_k \mid q, r\right) = \frac{\exp \left(g_\theta \left(d_k, q \right)\right)}{\sum_d\exp \left(g_\theta \left(d_k, q \right)\right)}& eeimg=&1&&&/p&&p&&img src=&/equation?tex=G%5Cleft%28%5Clangle+d_k%2C+d_j%5Crangle+%5Cmid+q+%5Cright%29+%3D+%5Cfrac%7B%5Cexp+%5Cleft%28g_%5Ctheta+%5Cleft%28d_k%2C+q+%5Cright%29+-+g_%5Ctheta+%5Cleft%28d_j%2C+q+%5Cright%29%5Cright%29%7D%7B%5Csum_d%5Cexp+%5Cleft%28g_%5Ctheta+%5Cleft%28d_k%2C+q+%5Cright%29+-+g_%5Ctheta+%5Cleft%28d_j%2C+q+%5Cright%29+%5Cright%29%7D+%3D+%5Cfrac%7B%5Cexp+%5Cleft%28g_%5Ctheta+%5Cleft%28d_k%2C+q+%5Cright%29%5Cright%29%7D%7B%5Csum_d%5Cexp+%5Cleft%28g_%5Ctheta+%5Cleft%28d_k%2C+q+%5Cright%29%5Cright%29%7D+%3D+p_%5Ctheta+%5Cleft%28d_k+%5Cmid+q%2C+r%5Cright%29& alt=&G\left(\langle d_k, d_j\rangle \mid q \right) = \frac{\exp \left(g_\theta \left(d_k, q \right) - g_\theta \left(d_j, q \right)\right)}{\sum_d\exp \left(g_\theta \left(d_k, q \right) - g_\theta \left(d_j, q \right) \right)} = \frac{\exp \left(g_\theta \left(d_k, q \right)\right)}{\sum_d\exp \left(g_\theta \left(d_k, q \right)\right)} = p_\theta \left(d_k \mid q, r\right)& eeimg=&1&&&/p&&p&IRGAN在Pairwise情形下的总目标函数如下，其中， &img src=&/equation?tex=o& alt=&o& eeimg=&1&& 表示真实的非对称二元组，而 &img src=&/equation?tex=o%5Cprime& alt=&o\prime& eeimg=&1&& 则表示生成式IR模型生成的二元组：&/p&&p&&img src=&/equation?tex=J%5E%7BG%5E%5Cast%2C+D%5E%5Cast%7D+%3D+%5Cmin_%7B%5Ctheta%7D+%5Cmax_%7B%5Cphi%7D+%5Csum%5Climits_%7Bn%3D1%7D%5EN+%5Cleft%28%5Cmathbb%7BE%7D_%7Bo+%5Csim+p_%7Breal%7D%5Cleft%28o+%5Cmid+q_n%2Cr+%5Cright%29%7D%5Cleft%5B%5Clog+D%5Cleft%28o+%5Cmid+q_n+%5Cright%29+%5Cright%5D+%2B+%5Cmathbb%7BE%7D_%7Bo%5Cprime+%5Csim+p_%7B%5Ctheta%7D%5Cleft%28o%5Cprime+%5Cmid+q_n%2Cr+%5Cright%29%7D%5Cleft%5B%5Clog+%5Cleft%281+-+D%5Cleft%28o%5Cprime+%5Cmid+q_n+%5Cright%29+%5Cright%29%5Cright%5D+%5Cright%29& alt=&J^{G^\ast, D^\ast} = \min_{\theta} \max_{\phi} \sum\limits_{n=1}^N \left(\mathbb{E}_{o \sim p_{real}\left(o \mid q_n,r \right)}\left[\log D\left(o \mid q_n \right) \right] + \mathbb{E}_{o\prime \sim p_{\theta}\left(o\prime \mid q_n,r \right)}\left[\log \left(1 - D\left(o\prime \mid q_n \right) \right)\right] \right)& eeimg=&1&&&/p&&p&&br&&/p&&p&IRGAN的一大特点是，对抗model中的两个组件各自都是一种IR模型，所以经过对抗训练之后，不管拿出来哪个，都有希望突破原先的瓶颈。作者还关于IRGAN的训练目标是否符合纳什均衡做了一些讨论，尽管在真实检索的应用中很难获得所谓的真实关联分布，但作者认为不管是观察到的关联样本还是未观察到的关联样本，判

外围串关输半关于排序算法下列说法;您说为什么这么难学？

我要回帖

更多关于关键词提取算法的文章

随机推荐

外围串关输半关于排序算法下列说法;您说为什么这么难学？

我要回帖

更多关于 关键词提取算法 的文章

随机推荐

更多关于关键词提取算法的文章