您的位置: 专家智库 > >

王海燕

作品数:1 被引量:0H指数:0
供职机构:苏州大学计算机科学与技术学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇迭代
  • 1篇迭代算法

机构

  • 1篇苏州大学

作者

  • 1篇章鹏
  • 1篇王海燕
  • 1篇王辉

传媒

  • 1篇电脑知识与技...

年份

  • 1篇2014
1 条 记 录,以下是 1-1
排序方式:
基于强化学习的值迭代算法
2014年
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。
崔军晓朱蒙婷王海燕章鹏王辉
共1页<1>
聚类工具0