中国矿业大学青年科技基金(OC080252)
- 作品数:2 被引量:11H指数:2
- 相关作者:李明朱美强冯涣婷程玉虎王雪松更多>>
- 相关机构:中国矿业大学更多>>
- 发文基金:中国矿业大学青年科技基金国家自然科学基金教育部“新世纪优秀人才支持计划”更多>>
- 相关领域:自动化与计算机技术矿业工程更多>>
- 一类用于井下路径规划问题的Dyna_Q学习算法被引量:2
- 2012年
- 在基于目标的强化学习任务中,欧氏距离常用于Dyna_Q学习的启发式规划中,但对于井下救援机器人路径规划这类状态空间在欧氏空间内不连续的任务效果不理想。针对该问题,文章引入流形学习中计算复杂度较低的拉普拉斯特征映射法,提出了一种基于流形距离度量的改进Dyna_Q学习算法,并在类似于井下环境的格子世界中进行了仿真研究。仿真结果验证了该算法的有效性。
- 朱美强李明张倩
- 关键词:欧氏距离拉普拉斯特征映射流形距离
- 一类基于谱方法的强化学习混合迁移算法被引量:10
- 2012年
- 在状态空间比例放大的迁移任务中,原型值函数方法只能有效迁移较小特征值对应的基函数,用于目标任务的值函数逼近时会使部分状态的值函数出现错误.针对该问题,利用拉普拉斯特征映射能保持状态空间局部拓扑结构不变的特点,对基于谱图理论的层次分解技术进行了改进,提出一种基函数与子任务最优策略相结合的混合迁移方法.首先,在源任务中利用谱方法求取基函数,再采用线性插值技术将其扩展为目标任务的基函数;然后,用插值得到的次级基函数(目标任务的近似Fiedler特征向量)实现任务分解,并借助改进的层次分解技术求取相关子任务的最优策略;最后,将扩展的基函数和获取的子任务策略一起用于目标任务学习中.所提的混合迁移方法可直接确定目标任务部分状态空间的最优策略,减少了值函数逼近所需的最少基函数数目,降低了策略迭代次数,适用于状态空间比例放大且具有层次结构的迁移任务.格子世界的仿真结果验证了新方法的有效性.
- 朱美强程玉虎李明王雪松冯涣婷
- 关键词:谱图理论