如何打造新型强化学习观

200730226900520
&20072008603060602010201190100709010012 月 5 日,机器学习和计算神经科学的国际顶级会议第 30 届神经信息处理系统大会(NIPS 2016)在开幕。本届大会最佳论文奖(Best Paper Award)获奖论文是《Value Iteration s》。
2016 NIPS 最佳论文《Value Iteration Networks》的作者,是加州大学伯克利分校 Aviv Tamar、吴翼(Yi Wu)等人。这篇论文介绍了一个能学习设计策略,而不是被动的完全遵循策略的神经。同时,这种新的强化学习观并不是基于的(model-free)。机器之心第一时间联系到最佳论文的作者之一吴翼(Yi Wu),让他为我们详细讲述 VIN 的特点、应用方式和他的研究心得。
与最佳论文作者吴翼的对话
机器之心:恭喜获奖!能谈谈你的研究方向和最近工作吗?
答:我自己的研究兴趣比较广泛,主要考虑的问题是如何能够在 AI 模型中更好的表达人的先验,并利用这些人的已有知识,让模型利用更少的数据,做出更好的推断。
我做过的包括概率语言(probabilistic programming language)以及概率推理(probabilistic inference),层次强化学习(hierachical reinforcement learning)。
除此之外,这个假期我在北京的今日头条做了 3 个月实习,期间利用层次化模型处理了一些与自然语言处理(natural language processing)相关的问题。回到 Berkeley 之后我也和一些相关教授合作,继续利用层次化模型做一些和 NLP 有关的问题。
机器之心:请简单介绍一下《Value IterationNetwork》的及 VIN 网络应用的场景 。
答:VIN 的目的主要是解决深度强化学习泛化能力较弱的问题。
传统的深度强化学习(比如 deep Q-learning)目标一般是采用神经网络学习一个从状态(state)到决策(action)的直接映射。神经网络往往会记忆一些训练集中出现的场景。所以,即使模型在训练时表现很好,一旦我们换了一个与之前训练时完全不同的场景,传统深度强化学习方法就会表现的比较差。
在 VIN 中,我们提出,不光需要利用神经网络学习一个从状态到决策的直接映射,还要让网络学会如何在当前环境下做长远的规划(learn to plan),并利用长远的规划辅助神经网络做出更好的决策。
通俗点来说叫:授人以鱼不如授人以渔。不妨说大家在北京,那么要怎么才能让一个人学会认路呢?传统的方法就是通过日复一日的训练,让一个人每天都从天安门走到西直门,久而久之,你就知道了长安街周边区域大致应该怎么走,就不会迷路了。但是如果这个人被突然扔到了,并让他从静安寺走到外滩,这个人基本就蒙了。VIN 提出的 learning to plan 的意义就在于,让这个人在北京学认路的时候,同时学会看地图。虽然这个人到了上海之后不认识路,但是如果他会看地图,他可以在地图上规划出从静安寺到外滩的道路,然后只要他能知道自己现在处在地图上的什么位置以及周边道路的方向,那么利用地图提供的额外的规划信息,即使这个人是第一次到上海,他也能成功的从静安寺走到外滩。
在中,我们提出了一种特殊的网络结构(value iteration module),这种结构和经典的规划算法 value iteration 有着相同的数学表达形式。利用这种数学性质,VIN 将传统的规划算法(planning algorithm)嵌入了神经网络,使得网络具有长期规划的能力。
VIN 中所使用的特殊结构,value iteration module,在很多问题上都可以直接加入现有的强化学习框架,并用来改进很多现有模型的泛化能力。
机器之心:你跟从 Russell 教授学习带来了哪些启发?
答:Berkeley 有着全世界最好的 AI 研究氛围和学者,我很幸运能够在 Berkeley 学习和研究。
我的导师 Stuart Russell 教授对我的影响是最大的。他改变了很多我对的科研观点和习惯,让我不要急功近利。在我比较艰难的时间段里他也不停的鼓励我,也对我在很多方面给予了很大的支持,信任和帮助。
此外我第一篇关于概率的论文也非常幸运得到了 Rastislav Bodik 教授的指导和帮助,不过很不凑巧,在我博士第一年结束之后他就被挖到了华盛顿大学(University of Washington)。
在强化学习方面,我得到了 Pieter Abbeel 教授,Sergey Levine 教授,Aviv Tarmar 博士,还有他们组里的很多博士生的帮助。他们都是领域里最厉害的学者,让我学到了非常多的东西。
在自然语言处理方面,我在今日头条实验室实习的时候得到了李磊博士的很多指导,回到 Berkeley 后,我和 David Bamman 教授也有合作,他也是圈内顶尖的学者,也总能给我提出很有价值的建议和指导。
机器之心:获得 BestPaper 是意料之中的事情吗?有什么感想?答:大家知道消息的时候还是挺意外的,也很高兴。毕竟 best paper 是个很高的荣誉,这一次 NIPS 也有很多非常非常优秀的工作,能够被选中,大家都非常开心。
论文: Value Iteration Networks
在本研究中,我们介绍了价值迭代网络(value iteration network, VIN):一个完全可微分的神经网络,其中嵌入了「规划模块」。VIN 可以经过学习获得规划(planning)的能力,适用于预测涉及基于规划的推理结果,例如用于规划强化学习的策略。这种新方法的关键在于价值迭代算法的新型可微近似,它可以被表征为一个卷积神经网络,并以端到端的方式训练使用标准反向传播。我们在离散和连续的路径规划域和一个基于自然语言的搜索任务上评估了 VIN 产生的策略。实验证明,通过学习明确的规划计算,VIN 策略可以更好地泛化到未见过的新域。
过去十年中,深度卷积神经网络(CNN)已经在物体识别、动作识别和语义分割等任务上革新了监督学习的方式。最近,CNN 被用到了需要视觉观测的强化学习(RL)任务中,如 Atari 、操作、和模拟学习(IL)。在这些任务中,一个神经网络(NN)被训练去表征一个策略——从系统状态的一个观测到一个行为的映射,其目的是表征一个拥有良好的长期行为的控制策略,通常被量化为成本随时间变化的一个序列的最小化。
强化学习(RL)中决策制定的连续性(quential nature)与一步决策(one-step decisionsin)监督学习有本质的不同,而且通常需要某种形式的规划。然而,大部分最近的深度强化学习研究中都用到了与监督学习任务中使用的标准网络十分相似的神经网络架构,通常由用于提取特征的 CNN 构成,CNN 的所有层都连在一起,能将特征映射到行动(action)的概率分布上。这样的网络具有内在的反应性,同时特别的一点是它缺乏明确的规划计算。序列问题中反应策略的成功要归功于该学习算法,它训练了一个反应策略去选择在其训练领域有良好长期结果的行动。
为了理解为什么一个策略(policy)中的规划(planning)是一个重要的要素,可以参考一下图 1(左)中网格世界的导航任务,其中的 agent 能观测其域的地图,并且被要求在某些障碍之间导航到目标位置。有人希望训练一个策略后能解决带有不同的障碍配置的该问题的其他几个实例,该策略能泛化到解决一个不同的、看不见的域,如图 1(右)显示。然而,根据我们的实验显示,虽然标准的基于 CNN 的网络能被轻易训练去解决这类地图的一个集合,它们却无法很好的泛化到这个集合之外的新任务中,因为它们不理解该行为的基于目标的形式。这个观察结果显示被反应策略(reactive policy)学习的计算不同于规划(planning),它需要解决的是一个新任务。
图 1:一个网格世界域的两个实例。任务在障碍之间移动到全局。
在这个研究中,我们提出了一个基于神经网络的策略(policy),它能有效地去学习规划(plan),我们的模型,termeda 值迭代网络(VIN),有一个可微分的「规划」,被植入了该神经网络结构。我们方法的关键是观测到经典值迭代(VI)规划算法可能由一个 特定类型的 CNN 表征。通过将这样一个 VI 网络模块植入到一个标准的前馈分类网络中,我们就获得了一个能学习一个规划计算的神经网络模型。这个 VI 模块是可微分的,而且整个网络能被训练去使用一个标准的反向传播。这就让我们的策略简单到能训练使用标准的强化学习和模拟学习算法,并且直接与神经网络整合,用于感知和控制。
我们的方法不同于基于模型的强化学习,后者需要系统识别以将观测映射到动力学模型中,然后产生解决策略。在强化学习的许多应用中,包括机器人操纵和移动场景中,进行准确的系统识别是极其困难的,同时建模错误会严重降低策略的表现。在这样的领域中,人们通常会选择无模型方法。由于 VIN 仅是神经网络策略,它可以进行无模型训练,不需要进行明确的系统识别。此外,通过训练网络端到端可以减轻 VIN 中的建模误差的影响。
我们证明了 VIN 可以有效应用于标准的强化学习和模拟学习算法中的各种问题,其中包括需要视觉感知,连续控制,以及在 WebNav 挑战中的基于自然语言的决策问题。在训练之后,策略学习将观察映射到与任务相关的规划计算中,随后基于结果生成动作预测的计划。正如我们所展示的结果,这种方式可以更好地为新的,未经训练的任务形式的实例归纳出更好的策略。
结论和展望
强大的和可扩展的强化学习方法为深度学习开启了一系列新的问题。然而,最近很少有新的研究探索如何建立在不确定环境下规划策略的架构,目前的强化学习理论和基准很少探究经过训练的策略的通用性质。本研究通过更好地概括策略表示的方法,朝着这个方向迈出了一步。
我们提出的 VIN 方法学习与解决任务相关的大致策略并计算规划,同时,我们已经在实验中证明,这样的计算方式在不同种类任务中具有更好的适用性,从简单的适用性价值迭代的网格世界,到连续控制,甚至到维基百科链接的导航。在未来的研究中,我们计划向基于模拟或最优线性控制学习的方向开发不同的计算规划方式,并将它们与反应策略相结合,从而为任务和运动规划拓展新的强化学习。
以下是最佳论文《Value Iteration Networks》相关的演讲幻灯片介绍,演讲者为该论文的第一作者、 Berkeley AI Research Lab (BAIR) 博士后 Aviv Tamar。
P1-6:介绍
对于自动化机器人的目标(比如命令机器人打开冰箱给你拿瓶),用强化学习可以吗?深度强化学习从高维的视觉输入中学习策略,学习执行动作,但它理解这些策略和动作吗?可以简单测试一下:泛化到一个网格世界中。
P7-10:观察:反应性策略(reactive policies)的泛化效果并不好。
为什么反应性策略的泛化效果不好呢?
一个序列任务需要一个规划计算(planning computation)
强化学习绕过了它——而是学习一个映射(比如,状态→Q 值,状态→带有高返回(return)的动作,状态→带有高优势(advantage)的动作,状态→专家动作,[状态]→[基于规划的项])
Q/返回/优势:在训练域(training domains)上的规划
新任务:需要重新规划(re-plan)
P11:在这项成果中,我们可以学习规划和能够泛化到未见过的任务的策略。
P12-14:背景
P16-21:一种基于规划的策略模型
从一个反应性策略开始
加入一个明确的规划计算
将观察(observation)映射到规划 MDP&
假设:观察可被映射到一个有用的(但未知的)规划计算
神经网络将观察映射成奖励和转变(transitions)
然后,学习这些
怎么去使用这种规划计算?
事实 1 :值函数 = 关于规划的足够信息
思路 1:作为特征向量加入反应性策略
事实 2:动作预测可以仅需要 V-*的子集
类似于注意模型,对学习非常有效
策略仍然是一个映射 g ?(s) → Prob(a)
映射 R-、P-、注意的参数 θ
我们可以反向传播吗?
反向传播怎么通过规划计算?
P22-23:价值迭代=卷积网络
P24-27:价值迭代网络(VIN)
P28-29:实验
1.VIN 能学习规划计算吗?
2.VIN 能够比反应策略泛化得更好吗?
P30-46:网格世界域
P47-51:火星导航域
P52-59:连续控制域
P60-72:导航域:基于语言的搜索新干部、年轻干部尤其要抓好理论学习
日 10:00:39
来源:人民网  作者:记者 倪光辉
  习近平在全国宣传思想工作会议上强调
  胸怀大局把握大势着眼大事 努力把宣传思想工作做得更好
  刘云山出席会议并讲话
  人民网北京8月20日电 (记者倪光辉)全国宣传思想工作会议19日至20日在北京召开。中共中央总书记、国家主席、中央军委主席习近平出席会议并发表重要讲话。他强调,宣传思想工作一定要把围绕中心、服务大局作为基本职责,胸怀大局、把握大势、着眼大事,找准工作切入点和着力点,做到因势而谋、应势而动、顺势而为。
  中共中央政治局常委、中央书记处书记刘云山出席会议并讲话。
  习近平在讲话中强调,经济建设是党的中心工作,意识形态工作是党的一项极端重要的工作。党的十一届三中全会以来,我们党始终坚持以经济建设为中心,集中精力把经济建设搞上去、把人民生活搞上去。只要国内外大势没有发生根本变化,坚持以经济建设为中心就不能也不应该改变。这是坚持党的基本路线100年不动摇的根本要求,也是解决当代中国一切问题的根本要求。同时,只有物质文明建设和精神文明建设都搞好,国家物质力量和精神力量都增强,全国各族人民物质生活和精神生活都改善,中国特色社会主义事业才能顺利向前推进。
  习近平指出,宣传思想工作就是要巩固马克思主义在意识形态领域的指导地位,巩固全党全国人民团结奋斗的共同思想基础。党员、干部要坚定马克思主义、共产主义信仰,脚踏实地为实现党在现阶段的基本纲领而不懈努力,扎扎实实做好每一项工作,取得“接力赛”中我们这一棒的优异成绩。领导干部特别是高级干部要把系统掌握马克思主义基本理论作为看家本领,老老实实、原原本本学习马克思列宁主义、毛泽东思想特别是邓小平理论、“三个代表”重要思想、科学发展观。党校、干部学院、社会科学院、高校、理论学习中心组等都要把马克思主义作为必修课,成为马克思主义学习、研究、宣传的重要阵地。新干部、年轻干部尤其要抓好理论学习,通过坚持不懈学习,学会运用马克思主义立场、观点、方法观察和解决问题,坚定理想信念。
  习近平指出,要深入开展中国特色社会主义宣传教育,把全国各族人民团结和凝聚在中国特色社会主义伟大旗帜之下。要加强社会主义核心价值体系建设,积极培育和践行社会主义核心价值观,全面提高公民道德素质,培育知荣辱、讲正气、作奉献、促和谐的良好风尚。
  习近平强调,党性和人民性从来都是一致的、统一的。坚持党性,核心就是坚持正确政治方向,站稳政治立场,坚定宣传党的理论和路线方针政策,坚定宣传中央重大工作部署,坚定宣传中央关于形势的重大分析判断,坚决同党中央保持高度一致,坚决维护中央权威。所有宣传思想部门和单位,所有宣传思想战线上的党员、干部都要旗帜鲜明坚持党性原则。坚持人民性,就是要把实现好、维护好、发展好最广大人民根本利益作为出发点和落脚点,坚持以民为本、以人为本。要树立以人民为中心的工作导向,把服务群众同教育引导群众结合起来,把满足需求同提高素养结合起来,多宣传报道人民群众的伟大奋斗和火热生活,多宣传报道人民群众中涌现出来的先进典型和感人事迹,丰富人民精神世界,增强人民精神力量,满足人民精神需求。
  习近平指出,坚持团结稳定鼓劲、正面宣传为主,是宣传思想工作必须遵循的重要方针。我们正在进行具有许多新的历史特点的伟大斗争,面临的挑战和困难前所未有,必须坚持巩固壮大主流思想舆论,弘扬主旋律,传播正能量,激发全社会团结奋进的强大力量。关键是要提高质量和水平,把握好时、度、效,增强吸引力和感染力,让群众爱听爱看、产生共鸣,充分发挥正面宣传鼓舞人、激励人的作用。在事关大是大非和政治原则问题上,必须增强主动性、掌握主动权、打好主动仗,帮助干部群众划清是非界限、澄清模糊认识。
  习近平强调,在长期实践中,我们党的宣传思想工作积累了十分丰富的经验。这些经验来之不易、弥足珍贵,是做好今后工作的重要遵循,一定要认真总结、长期坚持,并在实践中不断丰富和发展。“明者因时而变,知者随事而制。”宣传思想工作创新,重点要抓好理念创新、手段创新、基层工作创新,努力以思想认识新飞跃打开工作新局面,积极探索有利于破解工作难题的新举措新办法,把创新的重心放在基层一线。要继续推进文化体制改革,推动文化事业全面繁荣和文化产业快速发展、建设社会主义文化强国。
  习近平指出,在全面对外开放的条件下做宣传思想工作,一项重要任务是引导人们更加全面客观地认识当代中国、看待外部世界。宣传阐释中国特色,要讲清楚每个国家和民族的历史传统、文化积淀、基本国情不同,其发展道路必然有着自己的特色;讲清楚中华文化积淀着中华民族最深沉的精神追求,是中华民族生生不息、发展壮大的丰厚滋养;讲清楚中华优秀传统文化是中华民族的突出优势,是我们最深厚的文化软实力;讲清楚中国特色社会主义植根于中华文化沃土、反映中国人民意愿、适应中国和时代发展进步要求,有着深厚历史渊源和广泛现实基础。中华民族创造了源远流长的中华文化,中华民族也一定能够创造出中华文化新的辉煌。独特的文化传统,独特的历史命运,独特的基本国情,注定了我们必然要走适合自己特点的发展道路。对我国传统文化,对国外的东西,要坚持古为今用、洋为中用,去粗取精、去伪存真,经过科学的扬弃后使之为我所用。
  习近平强调,对世界形势发展变化,对世界上出现的新事物新情况,对各国出现的新思想新观点新知识,我们要加强宣传报道,以利于积极借鉴人类文明创造的有益成果。要精心做好对外宣传工作,创新对外宣传方式,着力打造融通中外的新概念新范畴新表述,讲好中国故事,传播好中国声音。
  习近平指出,宣传思想部门承担着十分重要的职责,必须守土有责、守土负责、守土尽责。宣传思想部门工作要强起来,首先是领导干部要强起来,班子要强起来。各级宣传部门领导同志要加强学习、加强实践,真正成为让人信服的行家里手。
  习近平强调,做好宣传思想工作必须全党动手。各级党委要负起政治责任和领导责任,加强对宣传思想领域重大问题的分析研判和重大战略性任务的统筹指导,不断提高领导宣传思想工作能力和水平。要树立大宣传的工作理念,动员各条战线各个部门一起来做,把宣传思想工作同各个领域的行政管理、行业管理、社会管理更加紧密地结合起来。
  刘云山在讲话中指出,习近平总书记重要讲话站在党和国家全局高度,深刻阐述了事关宣传思想工作长远发展的一系列重大理论问题和现实问题,进一步明确了今后工作的方向目标、重点任务和基本遵循。要深入学习领会、全面贯彻落实,切实把思想和行动统一到讲话精神上来。
  刘云山说,做好新形势下宣传思想文化工作,要深入贯彻党的十八大精神和习近平总书记一系列重要讲话,围绕坚持中国道路、弘扬中国精神、凝聚中国力量,充分发挥思想引领、舆论推动、精神激励和文化支撑作用,引导广大干部群众为实现“两个一百年”奋斗目标和中华民族伟大复兴的中国梦而奋斗。要着眼坚定理想信念,深入开展中国特色社会主义和中国梦的宣传教育,引导人们增强道路自信、理论自信、制度自信;切实履行好围绕中心、服务大局的基本职责,牢牢把握正确舆论导向,把体现党的主张与反映人民心声统一起来,凝聚促进改革发展、维护社会稳定的正能量;深入推进社会主义核心价值体系建设,不断培植我们的精神家园,增强全民族的凝聚力向心力;继续深化文化体制改革,加快文化发展步伐,着力培育文化优势,壮大文化力量,提升国家文化软实力。各级党委要切实加强对宣传思想文化工作的领导,以强烈责任感和担当精神把党管宣传、党管意识形态的要求落到实处。宣传思想文化战线要以改革创新的精神推进工作,增强主动性、掌握话语权,注重抓基层、打基础,着力转作风、正学风、改文风,建设一支高素质的宣传思想文化队伍,努力开创宣传思想文化工作新局面。
  中共中央政治局委员、中央宣传部部长刘奇葆在总结讲话中表示,要深入开展中国特色社会主义和中国梦宣传教育,加强意识形态的引导和管理,巩固发展健康向上的主流舆论,培育和践行社会主义核心价值观,积极稳妥推进文化改革发展,推动文化走出去、提高文化软实力,不断巩固马克思主义在意识形态领域的指导地位,巩固全党全国人民团结奋斗的共同思想基础。宣传思想文化战线要有守有为、敢于担当、改革创新、虚功实做、建强队伍,以奋发有为的精神状态开创工作新局面。
  部分在京中共中央政治局委员、书记处书记出席会议。
  这次会议回顾总结了党的十七大以来的宣传思想文化工作,研究部署在新的历史起点上努力开创宣传思想文化工作新局面。中央宣传思想工作领导小组成员,各省区市、新疆生产建设兵团以及副省级城市党委宣传部部长,中央和国家机关有关部委、有关人民团体分管宣传工作的负责同志,中央宣传文化系统各单位主要负责同志,总政治部宣传部、武警部队政治部主要负责同志等参加会议。
( 网站编辑:王润斌 )加强理论学习 主动适应新形势发展需要_中廉网
加强理论学习 主动适应新形势发展需要
当今社会是一个飞速发展的社会。科学技术的迅猛发展、信息与知识的急剧增长、知识更新周期的缩短、创新频率的加快以及全球经济一体化的趋势,不断孕育出新的生产方式、经济运行机制和
当今社会是一个飞速发展的社会。科学技术的迅猛发展、信息与知识的急剧增长、知识更新周期的缩短、创新频率的加快以及全球经济一体化的趋势,不断孕育出新的生产方式、经济运行机制和管理模式,加强学习,跟上形势的发展需要,适应工作岗位的需要。
政治立场要坚定。要进一步提高政治思想觉悟,在工作中始终坚持运用马克思列宁主义的立场、观点和方法论,运用辩证唯物主义与历史唯物主义去分析和观察事物,明辨是非,坚持真理,坚持正确的世界观、人生观、价值观,用正确的世界观、人生观、价值观指导自己的学习、工作和生活实践。认真贯彻执行党的路线、方针、政策,为加快社会主义建设事业认真做好本职工作。
&&&在学习中强理论。理论素质是领导素质的灵魂。我们党历来非常重视理论建设,在任何时候任何历史条件下都不放理论建设。学理论就是在用科学的思想武装头脑、用科学的观点分析现象和问题、用科学的理论指导实践。我们党的基本理论是在继承马克思主义的基础上不断创新、不断发展、不断丰富的。党员干部要在书本中 “深学”,在头脑中 “消化”,在工作中“致用”,而且要内化于心,外化与形,把科学理论、观点、方法学到手,力求博学、广知、多懂,而后 “出乎其外”,跳出来解决问题,指导实践,推动工作。
在学习中增品行。古人云:“非学无以广才,非学无以明识,非学无以立德。”学习是锻炼领导干部品行的“法宝”,品行既折射着一个人对待工作的态度,也反映着其世界观、人生观和价值观。具有优秀品行的领导者,具有长久的号召力、影响力和凝聚力。凡是党性觉悟高、思想修养好、自律意识强的领导干部,都把学习作为一种神圣职责,作为一种精神境界,作为人生永恒的自觉追求的人。实践证明,一个领导干部要保持先进性,一刻也离不开学习。当前,进入新的发展阶段,我们面对的困难与挑战是巨大的,新情况、新问题不断的涌现,只有加强学习,才能增强凝聚干部队伍、激发工作热情的本领,才能在新的起点上去开创经济社会发展的新局面。
在学习中提才能。才能是诸因素在领导实践中的具体表现,主要包括政治鉴别能力、观察能力、分析判断能力、决策能力、组织管理能力、创新能力和预见能力等。领导干部的才能直接关系其人格魅力的大小,关系到单位工作完成的好坏。历史证明,才高者容易事有所成,而才高者必是学有所成者。领导干部如果不加强学习,知识就会老化、思想就会僵化、能力就会退化,就不能迎接诸多的挑战。只有通过学习,才能使领导干部视野越来越清晰,处理问题的能力越来越强,个人的素质越来越得到提升。
总之,领导干部只有通过学习,才能提升自己的个人素质,特别是信息社会的今天,知识更新不断加速,唯有不断学习,始终保持学而不厌的精神,始终保持奋发有为的朝气,才能战胜“本领恐慌”,才能迎接各种困难的挑战,去争取最后的胜利,出色地完成党和国家交给我们的各项任务。
[责任编辑:刘锐]
您认为这篇文章与"中廉网(K)"相关度高吗?
旗下业务介绍:  

我要回帖

 

随机推荐