赵学艳 作品数:4 被引量:8 H指数:2 供职机构: 华南理工大学自动化科学与工程学院 更多>> 发文基金: 国家自然科学基金 广东省自然科学基金 广州市科技计划项目 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
基于Q学习算法的随机离散时间系统的随机线性二次最优追踪控制 被引量:3 2021年 针对随机线性离散时间系统,利用Q学习算法求解无限时域的随机线性二次最优追踪控制(SLQT)问题.首先,假设通过命令生成器生成追踪所需的参考信号,并建立一个由原随机系统和参考轨迹系统组成的增广系统,把最优追踪问题转化为最优调节问题的形式.其次,为了在线求解随机系统的最优追踪问题,将随机系统转为确定性系统,并根据增广系统定义随机线性二次最优追踪控制的Q函数,在无需知道系统模型参数的情况下在线求解增广随机代数方程(GSAE).再次,证明了Q学习算法和增广随机代数方程的等价性,给出了Q学习算法实现步骤.最后,给出一个仿真实例说明Q学习算法的有效性. 张正义 赵学艳关键词:Q学习算法 基于权重值的竞争深度双Q网络算法 被引量:4 2021年 在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升. 汪晨曦 赵学艳 郭新基于局部Lipschitz条件的非线性It随机微分方程的基本理论(英文) 被引量:1 2016年 主要目的是在局部Lipschitz条件下建立非线性Ito随机微分方程的基本理论,包括解的存在性和非零性.过去文献中的局部Lipschitz条件被减弱为广义局部Lipschitz条件,其系数可以是局部、变系数、非线性的,在时间维上真正允许系数的时变性,在空间维上真正允许系数的非线性性. 赵学艳 邓飞其 杨启贵关键词:局部LIPSCHITZ条件 存在性 一般速率下马尔可夫调制随机系统的稳定性 2012年 一些稳定的随机系统是非指数稳定的,可能出现方程解收敛的速率较指数速率低的情况,如多项式或对数.为了更精确地定量分析系统的稳定性,文中将指数稳定概念推广到更一般稳定的衰减函数,研究了一类马尔可夫调制随机系统在一般衰减速率下的稳定性.利用It公式、Borel-Cantelli引理和鞅指数不等式等随机分析技巧,先建立了解析解p阶矩(t)稳定和几乎必然(t)稳定的定理,然后证明了在相同的条件下,对足够小的步长Δ,Euler Maruyama方法能保持相同的稳定性. 邓飞其 旷世芳 赵学艳关键词:马尔可夫链