搜索到15296篇“ 强化学习算法“的相关文章
- 逆强化学习算法、理论与应用研究综述
- 2024年
- 随着高维特征表示与逼近能力的提高,强化学习(Reinforcement learning,RL)在博弈与优化决策、智能驾驶等现实问题中的应用也取得显著进展.然而强化学习在智能体与环境的交互中存在人工设计奖励函数难的问题,因此研究者提出了逆强化学习(Inverse reinforcement learning,IRL)这一研究方向.如何从专家演示中学习奖励函数和进行策略优化是一个重要的研究课题,在人工智能领域具有十分重要的研究意义.本文综合介绍了逆强化学习算法的最新进展,首先介绍了逆强化学习在理论方面的新进展,然后分析了逆强化学习面临的挑战以及未来的发展趋势,最后讨论了逆强化学习的应用进展和应用前景.
- 宋莉李大字徐昕
- 基于不确定性权重的保守Q学习离线强化学习算法
- 2024年
- 离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从而解决离线强化学习中对数据集分布外(OOD)的状态-动作价值估值错误的问题。保守Q学习算法(CQL)通过值函数正则赋予分布外状态-动作较低的价值来避免该问题。然而,由于该算法正则化过于保守,数据集内的分布内状态-动作也被赋予了较低的价值,难以达到训练策略选择数据集中动作的目的,因此很难学习到最优策略。针对该问题,提出了一种基于不确定性权重的保守Q学习算法(UWCQL)。该方法引入不确定性计算,在保守Q学习算法的基础上添加不确定性权重,对不确定性高的动作给予更高的保守权重,使得策略能更合理地选择数据集分布内的状态-动作。将UWCQL算法应用于D4RL的MuJoCo数据集中进行了实验,实验结果表明,UWCQL算法具有更好的性能表现,从而验证了算法的有效性。
- 王天久刘全乌兰
- 关键词:不确定性
- 一种基于逆强化学习算法的即时战略推演场景仿真方法
- 本发明提出一种基于逆强化学习算法的即时战略推演场景仿真方法,属于人工智能技术领域,包括如下步骤:S1、构建适用于即时战略推演场景的仿真模型;仿真模型包括环境策略空间描述研究模块、多智能体对抗的优先级虚拟自学习策略方法模块...
- 王晓天薛晗庆薛凯齐征梁瑞卿王晨李磊尹琼杨飞底亚峰魏珂谭佳琳于喜红赵爱红
- 基于强化学习算法的车辆边缘服务器部署方法
- 本发明公开了基于强化学习算法的车辆边缘服务器部署方法,其方法的步骤包括:S1:在云端与边缘端协同环境下对部署车辆边缘服务器的场景进行建模;S2:构建寻找云边协同计算网络下车联网边缘服务器部署问题最优解时的目标函数和约束条...
- 郭飞雁罗校清唐科晏园肖名涛李治国沈言锦王颖
- 基于多智能体强化学习算法的电梯疏散优化调度方法
- 本发明公开了一种基于多智能体强化学习算法的电梯疏散优化调度方法,用于实现紧急情况下深埋地铁车站人员的快速疏散,包括:利用模拟仿真软件构建增加安全层的深埋地铁车站模型;规定深埋地铁疏散场景下电梯运行逻辑,并确定电梯执行动作...
- 马剑何姗姗王阳李嘉霖王金伟关志鹏张俊游勇石太伟陈娟王巧蒋阳升
- 基于深度强化学习算法的风力发电机叶片无人机巡检方法
- 本发明公开了一种基于深度强化学习算法的风力发电机叶片无人机巡检方法,适用于无人机巡检叶片任务,能在复杂环境下保证无人机的稳定性和鲁棒性,并以最低能耗路径完成巡检任务;首先构建了无人机巡检风机叶片的强化学习模型,以模拟无人...
- 李煊鹏王强
- 一种Anylogic与python强化学习算法交互的方法
- 本发明属于仿真模型优化方法技术领域,具体涉及一种Anylogic与python强化学习算法交互的方法,包括以下步骤步骤1、在Anylogic中建立目标模型,并建立增强学习实验RLExperiment;步骤2、编写仿真运行...
- 凌琳秦梅玲刘明周张玺葛茂根扈静
- 一种基于FPGA的A3C深度强化学习算法加速器
- 本发明公开了一种基于FPGA的A3C深度强化学习算法加速器,涉及人工智能的深度强化学习技术领域,包括上位机和FPGA加速器,上位机用于提供交互环境;FPGA加速器用于完成智能体推理与训练的计算加速,包括:存储模块;正向计...
- 葛芬张国辉周芳李梓瑜叶剑涛龚文强王浩吴淑宁
- 一种基于威胁度强化学习算法的多主体追逃最优策略方法
- 本发明涉及一种基于威胁度强化学习算法的多主体追逃最优策略方法,包括:基于粒子群算法构建威胁度预分配模型;通过目标威胁程度、航迹距离、任务数量构建目标函数,得到集群单元组任务;构建多主体深度强化学习模型,通过行动器判别器算...
- 李石靳捷杨怡欣赵颖张琪许彦卿杨卓鹏殷浚喆蒲洪波王国梁王文跃代波
- 基于DSAW离线强化学习算法的冗余驱动机械臂路径规划方法
- 本发明公开了一种基于DSAW离线强化学习算法的冗余驱动机械臂路径规划方法,属于机械臂三维空间路径规划领域。针对三维空间内碰撞检测问题,通过包围法将路径节点与障碍物之间的碰撞关系简化为球体与长方体之间的碰撞关系,避免碰撞问...
- 陈正升梁爽王雪松程玉虎田阳
相关作者
- 俞扬

- 作品数:140被引量:99H指数:5
- 供职机构:南京大学
- 研究主题:强化学习算法 模拟器 无人机 智能体 环境模拟器
- 周志华

- 作品数:381被引量:1,905H指数:23
- 供职机构:南京大学
- 研究主题:神经网络 强化学习算法 图像 神经网络集成 数据挖掘
- 詹德川

- 作品数:158被引量:60H指数:3
- 供职机构:南京大学
- 研究主题:强化学习算法 训练数据 无人机 环境模拟器 模拟器
- 吴远

- 作品数:194被引量:0H指数:0
- 供职机构:浙江工业大学
- 研究主题:凸性 移动用户 线性搜索 最大化 无线资源
- 黄亮

- 作品数:210被引量:49H指数:4
- 供职机构:浙江工业大学
- 研究主题:凸性 移动用户 最小化 无线资源 最大化