朱文文
- 作品数:4 被引量:5H指数:2
- 供职机构:苏州大学更多>>
- 发文基金:江苏省高校自然科学研究项目江苏省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术医药卫生一般工业技术更多>>
- 连续空间非参函数逼近方法研究
- 强化学习是一种试错学习,可解决无模型问题,在没有任何先验知识的情况下, Agent通过与环境不断交互实现基于自身经验的学习。本文研究的是连续状态动作空间的问题,传统的解决方法是离散化状态或动作空间,为了保证一定的精度,离...
- 朱文文
- 关键词:高斯核函数
- 文献传递
- 基于Tile Coding编码和模型学习的Actor-Critic算法被引量:3
- 2014年
- Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。
- 金玉净朱文文伏玉琛刘全
- 关键词:TILECODING函数逼近
- 含锰纳米复合结构的制备、修饰及其在肿瘤诊疗中的应用
- 由于放疗、化疗、手术等传统肿瘤治疗手段的局限性日渐凸显,人们迫切需要寻找新型且高效的肿瘤诊疗手段以应对日益恶化的肿瘤疾病。随着纳米材料与技术的发展,具有复合功能的纳米材料由于其优异的性质已逐渐在肿瘤诊疗方面得到了广泛的研...
- 朱文文
- 关键词:普鲁士蓝二氧化锰光热治疗光动力治疗肿瘤诊疗
- 文献传递
- 连续空间的递归最小二乘行动者—评论家算法被引量:2
- 2014年
- 传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。
- 朱文文金玉净伏玉琛宋绪文
- 关键词:递归最小二乘