逆向强化学习研究综述
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP181

基金项目:

国家自然科学基金项目(61772355,61702055,61876217,62176175);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172017K18,93K172021K08);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程资助项目。


A Survey of Inverse Reinforcement Learning
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    逆向强化学习(Inverse Reinforcement Learning,IRL)也称为逆向最优控制(Inverse Optimal Control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.该文首先介绍了逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨了未来的发展方向.

    Abstract:

    Inverse reinforcement learning (IRL), also known as inverse optimal control (IOC), is a subfield of imitation learning and reinforcement learning. In order to learn expert behavior, IRL methods infer a reward function from expert demonstrations, then, IRL methods adopt a reinforcement learning algorithm to find out the desired behavior. In recent years, IRL methods have received a lot of attention and have been successfully used in solving a variety of tasks, such as navigation for vehicle investigation, planning trajectory, and robotic optimal control. First, the fundamental theories that include the formal definition of IRL are presented. Then, we introduce the research progress of IRL methods which include algorithms based on linear reward function and non-linear reward function, such as maximum margin approaches and maximum entropy approaches. In addition, from frontier research directions of inverse reinforcement learning, we introduce and analyze representative algorithms in this IRL which include incomplete expert demonstrations IRL approach, multi-agent IRL approach, sub-optimal expert demonstrations IRL approach, and guiding IRL approach. Finally, we summary some primary challenges and future developments in inverse reinforcement learning methods.

    参考文献
    相似文献
    引证文献
引用本文

张立华,刘全,黄志刚,朱斐.逆向强化学习研究综述.软件学报,,():0

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-11-05
  • 最后修改日期:2022-02-08
  • 录用日期:
  • 在线发布日期: 2022-05-24
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号