机器之心原创
作者:仵冀颖
编辑:Joni
近年来,强化学习在人工智能领域中所表现出来的成果多数是在仿真、视频游戏等非物理环境中实现的,然而在物理系统伤的复杂策略仍存在很大的挑战。这篇文章聚焦的是如何利用迁移学习,使强化学习能够在模拟环境中进行训练,而在实际的物理机器人领域中得到应用。
近年来,强化学习(Reinforcementlearning)在人工智能领域中表现出了显著的性能,例如基于原始像素的Atari游戏,连续复杂控制策略的学习,以及在围棋游戏Go中超越人类的表现等。
然而,这些成功大多是在仿真、视频游戏等非物理环境中实现的,强化学习在物理系统上的复杂策略仍存在很大的挑战。强化学习需要与现实环境进行大量的交互,但是机器人强化学习从现实环境中获取样本的代价极高,因此,针对复杂运动技能的机器人强化学习是一个具有挑战性且尚未解决的问题,而迁移学习是实现物理机器人强化学习的重要策略。
本文聚焦如何利用迁移学习,使强化学习能够在模拟环境中进行训练,而在实际的物理机器人领域中得到应用。
机器人的强化迁移学习背景介绍
机器之心在之前的文章中对一般的强化迁移学习进行过梳理,我们首先来回顾一下:
强化学习是一种根据环境反馈进行学习的技术。强化学习agent辨别自身所处的状态(state),按照某种策略决定动作(action),并根据环境提供的奖赏来调整策略,直至达到最优。马尔可夫决策MDP(MarkovDecisionProcess)是强化学习任务的标准描述,我们定义一个任务M,用四元组S,A,T,R表示,其中S是状态空间,A是动作空间,T是状态转移概率,R是奖赏函数。state-action空间S×A定义了任务的域,状态转移概率T和奖赏函数R定义了任务的目标。
当强化学习的状态动作空间S×A很大时,为了寻找最优策略,搜索过程非常耗时。此外,学习近似最优解所需的样本数量在实际问题中往往令人望而却步。无论是基于值的方法还是基于策略的方法,只要问题稍稍变动,之前的学习结果就会失效,而重新训练的代价巨大。因此,研究者们针对强化学习中的迁移学习展开了研究,希望能够将知识从源任务迁移到目标任务以改善性能。
上文中提到的样本数量、学习结果针对不同任务失效等这些在一般强化学习中存在的问题在机器人强化学习中尤其突出。现有的机器人强化学习方法大多只能完成单个任务,而无法在不同的任务之间推广,或者仅通过收集很少数量的现实机器人经验来概括一些任务策略,其性能无法满足实战的要求。将迁移学习引入机器人强化学习,目的是利用模拟环境中的数据辅助现实机器人学习。机器人强化学习中的迁移学习称为「模拟到现实(Sim-to-real)方法」,具体是指首先在模拟环境中收集数据并训练机器人控制策略,然后进行迁移学习,将训练获得的控制策略(新技能)应用于物理现实中的机器人。
然而,机器人的强化迁移学习也并不容易,因为并不存在能够完美捕捉现实的模拟器(环境),模拟与现实之间存在「现实差距」(RealityGap),模型的输入分布在策略训练(模拟)和策略执行(现实)之间存在动态变化和差异性。如果继续在这种有缺陷的模拟环境中训练策略产生控制行为,这种行为无法应对现实环境中的任何微小变化。此外,对于一些机器人动作模拟问题(如滑动摩擦力和接触力),其背后的物理现象仍然没有在模拟器上百分百模拟,这就意味着根本不可能在模拟环境中对一些现实中的机器人动作进行完全精确的模拟。
目前,改进机器人的强化迁移学习主要有几类方法:
1、试图在模拟和现实之间建立明确的一致性,缩小模拟和现实的差距;
2、对模拟阶段的策略训练进行随机化处理,使其能够推广到相关的动力学现实策略中;
3、在模拟阶段得到一个足够好的策略,能够在现实的机器人策略执行过程中快速适应现实世界;
4、提高对机器人动作物理现象本身的模拟水平;
5、可以通过引入其他学习手段提升机器人强化迁移学习的效果。
本文对机器人强化迁移学习的最新进展进行了梳理,对不同的方法进行了简要分析。
机器人的强化迁移学习最新进展
1、缩小模拟和现实的差距
FlorianGolemo,AdrienAliTaiga,etal,「Sim-to-RealTransferwithNeural-AugmentedRobotSimulation,」PMLR,
Available: