郝钏钏
- 作品数:4 被引量:17H指数:1
- 供职机构:浙江大学控制科学与工程学系更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金浙江省科技计划项目更多>>
- 相关领域:自动化与计算机技术航空宇航科学技术更多>>
- 基于Q学习的无人机三维航迹规划
- 现有的基于Q学习的无人机航迹规划方法很少考虑无人机本身的航迹约束,导致规划获得的航迹的可用性较差。本文提出一种更有效的无人机三维航迹规划方法:利用无人机的航迹约束条件指导规划空间离散化过程,不仅在一定程度上降低了获得的离...
- 郝钏钏方舟李平
- 关键词:无人机航迹规划Q学习
- 文献传递
- 基于Q学习的无人机三维航迹规划算法被引量:15
- 2012年
- 针对现有的基于强化学习的无人机航迹规划方法因无法充分考虑无人机的航迹约束而使规划获得的航迹可用性较差的问题,提出一种更有效的无人机三维航迹规划算法.该算法利用无人机的航迹约束条件指导规划空间离散化,不仅降低了最终的离散规划问题的规模,而且也在一定程度上提高了规划获得的航迹的可用性,通过在回报函数中引入回报成型技术,使算法具有满意的收敛速度.无人机三维航迹规划的典型仿真结果表明了所提出算法的有效性.
- 郝钏钏方舟李平
- 关键词:无人机三维航迹规划启发信息Q学习
- 基于参考模型的输出反馈强化学习控制被引量:1
- 2013年
- 现有的直接策略搜索强化学习控制算法大多是状态完全可观对象设计状态反馈控制策略,其适用的对象范围十分有限.为此,提出一种适用范围更广的模型参考输出反馈强化学习控制算法,其学习过程仅依赖对象输出,并可以获得使闭环系统具有期望动态性能的输出反馈控制策略.算法构造了以参考模型为基础的回报函数,可以有效地描述系统的期望闭环动态性能;采用以PID输出反馈控制律为基础的参数化随机控制策略,以便于利用先验知识、依据控制领域常用的PID参数经验整定方法确定较好的初始策略,以缩短学习时间;并使用具有良好学习性能的eNAC算法进行控制策略优化.二阶开环不稳定对象和某型高亚音速无人机俯仰通道线性参变(LPV)模型的学习控制仿真结果验证了算法的有效性.
- 郝钏钏方舟李平
- 采用经验复用的高效强化学习控制方法被引量:1
- 2012年
- 使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.
- 郝钏钏方舟李平
- 关键词:倒立摆控制