吕子昂
- 作品数:6 被引量:6H指数:2
- 供职机构:北京交通大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金北京市重点学科建设基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于定性模糊网络的分层Option算法
- 2009年
- 在强化学习的研究中,常用的知识传递方法通过抽取系统最优策略的特征获得知识.由于所获得知识通常与系统参数有关,因此这些方法难以应用于状态转移概率随系统参数变化的一类任务中.本文提出一种基于定性模糊网络的分层Option算法,该算法用定性动作描述系统的次优策略,并用定性模糊网络抽取次优策略的共同特征获得与参数无关的知识,完成知识传递.倒立摆系统的控制实验结果表明:定性模糊网络能有效地表示各种参数值不同的倒立摆系统所具有的控制规律,获取与系统参数无关的知识,将常用的知识传递方法从参数无关任务扩展到参数相关任务中.
- 郑宇罗四维吕子昂
- 关键词:倒立摆
- 强化学习算法的稳定状态空间控制
- 2008年
- 强化学习算法的探索次数随着状态空间的增加呈指数增长,因此难以用于复杂系统的控制中。为克服这一问题,提出一种稳定状态空间控制的强化学习算法。算法以寻找稳定空间的最优控制动作为学习目标,将探索过程集中于稳定状态空间中,而不探索系统的全部状态空间。由于稳定状态空间通常仅占系统状态空间中的极小一部分,因此算法的探索次数不随状态空间的增加呈指数增长。
- 郑宇罗四维吕子昂
- 关键词:马尔可夫决策过程倒立摆
- 模型选择的曲率方法研究
- 机器学习是人工智能的重要研究领域,模型选择是机器学习的重要研究内容。机器学习的许多实际问题中,需要从给定的有限观测数据推测产生这些数据的真实模型,而可能的模型往往有多个,从众多可能的模型中选择与未知的真实模型最匹配的模型...
- 吕子昂
- 关键词:神经计算统计模型
- 基于模型的层次化强化学习算法
- 2006年
- 针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.
- 郑宇罗四维吕子昂
- 关键词:倒立摆
- 模型的固有复杂度和泛化能力与几何曲率的关系被引量:4
- 2007年
- 从微分几何角度考察与参数化形式无关的统计模型流形的固有复杂度,指出模型流形的Gauss-Kroneker曲率可以完全刻画模型流形在一点处的全部性质,进而分析了曲率与体积的关系;给出了基于参数估计量邻域附近的解轨迹方法的曲率计算方法;证明了用于衡量泛化能力的未来残差可以用模型的曲率来表示,由此给出一种新的以曲率度量模型复杂度的模型选择准则GKCIC;对几何方法和统计学习理论进行了分析比较.在人工数据集和真实数据集上的比较实验结果表明了文中提出的方法的有效性.
- 吕子昂罗四维杨坚刘蕴辉邹琪
- 关键词:泛化能力
- 倒立摆系统中强化学习的极限环问题被引量:2
- 2008年
- 倒立摆系统是强化学习的一种重要的应用领域。首先分析指出在倒立摆系统中,常用的强化学习算法存在着极限环问题,算法无法正确收敛、控制策略不稳定。但是由于在简单的一级倒立摆系统中算法的控制策略不稳定的现象还不明显,因此极限环问题常常被忽视。针对强化学习算法中极限环问题,提出基于动作连续性准则的强化学习算法。算法采用修正强化信号和改进探索策略的方法克服极限环对倒立摆系统的影响。将提出的算法用于二级倒立摆的实际系统控制中,实验结果证明算法不仅能成功控制倒立摆,而且可以保持控制策略的稳定。
- 郑宇罗四维吕子昂
- 关键词:极限环倒立摆