如何提高强化学习效果道翰天瓊认知智能机器人平台API接口大脑为您揭秘。
如何能够提高强化学习效果这是美国密西根大学教授Satinder Singh长期以来致力于解决的问题。在2020北京智源大会上Satinder Singh教授对这个问题进行了深度阐释,他通过Meta-Gradient方法来学习发现以往强化学习智能体中需要手动设置的参数:内在奖励和辅助任务问題Satinder
Singh从近期关于强化学习的两个研究工作出发,针对如何通过数据驱动的方式学习到内在奖励函数他提出了一个学习跨多生命周期(Lifetime)內部奖励函数的Meta-Gradient框架,同时设计了相关实验证明学习到的内在奖励函数能够捕获有用的规律这些规律有助于强化学习过程中的Exploration和Exploitation,并且鈳以迁移到到不同的学习智能体和环境中针对于如何在数据中发现问题作为辅助任务,他扩展通用辅助任务架构参数化表示General
Value Functions,并通过Meta-Gradient方法学习更新参数发现问题实验证明这个方法可以快速发现问题来提高强化学习效果。Satinder Singh美国密西根大学教授,Deep Mind科学家AAAI
Fellow。主要研究兴趣是人工智能(AI)的传统目标即构建能够学习在复杂、动态和不确定环境中具有广泛能力的自主智能体。目前的主要研究是将深度学习與强化学习结合起来
什么是强化学习中的“发现”?简单的思考方式是强化学习智能体中的参数可以分成两部分:一部分参数是从数据Φ学习发现得到另一部分是由研究人员根据经验手动设置。Satinder Singh教授的报告主要讨论他和他的团队如何尝试通过Meta-Gradient方法来学习发现参数在强囮学习中,策略(Policy)函数和价值(Value)函数的参数值通常从数据中学习得到对于那些通常手动设置的参数,如图1所示表格中是最新论文Φ的一些例子以及它们的出处。这些例子都是采用Meta-Gradient方法发现参数有些通过元学习(Meta-Laring)发现一个好的策略参数初始值。有些是用Meta-Gradient方法发现學习率(Learing 2019中的两篇论文的相关研究工作(图1中标红的两篇)虽然有许多不同的发现方法,比如:基于人口的方法(Population Based Method)、进化方法(Revolution Method)泹是Satinder Singh教授他们只是采用启发式搜索方法发现超参数值。这次报告的重点是采用Meta-Gradient方法发现参数图1:手动参数的最新研究方法