公共文化服务平台

2025年3月7日星期五

|

欢迎来到海南省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

吕子昂: 作品数：6 被引量：6H指数：2; 供职机构：北京交通大学更多>>; 发文基金：国家自然科学基金国家教育部博士点基金北京市重点学科建设基金更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

罗四维北京交通大学计算机与信息技术学...
郑宇北京交通大学计算机与信息技术学...
杨坚北京交通大学计算机与信息技术学...
邹琪北京交通大学计算机与信息技术学...
刘蕴辉北京交通大学计算机与信息技术学...

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

5篇期刊文章
1篇学位论文

领域

6篇自动化与计算...

主题

4篇倒立摆
2篇学习算法
2篇强化学习算法
1篇倒立摆系统
1篇神经计算
1篇统计模型
1篇曲率
1篇马尔可夫
1篇马尔可夫决策...
1篇极限环
1篇泛化
1篇泛化能力
1篇层次化
1篇OPTION

机构

6篇北京交通大学

作者

6篇吕子昂
5篇罗四维
4篇郑宇
1篇刘蕴辉
1篇邹琪
1篇杨坚

传媒

1篇计算机学报
1篇计算机应用
1篇信息与控制
1篇计算机工程与...
1篇北京交通大学...

年份

1篇2012
1篇2009
2篇2008
1篇2007
1篇2006

共 6 条记录，以下是 1-6

全选清除导出

排序方式：

基于定性模糊网络的分层Option算法: 2009年; 在强化学习的研究中,常用的知识传递方法通过抽取系统最优策略的特征获得知识.由于所获得知识通常与系统参数有关,因此这些方法难以应用于状态转移概率随系统参数变化的一类任务中.本文提出一种基于定性模糊网络的分层Option算法,该算法用定性动作描述系统的次优策略,并用定性模糊网络抽取次优策略的共同特征获得与参数无关的知识,完成知识传递.倒立摆系统的控制实验结果表明:定性模糊网络能有效地表示各种参数值不同的倒立摆系统所具有的控制规律,获取与系统参数无关的知识,将常用的知识传递方法从参数无关任务扩展到参数相关任务中.; 郑宇罗四维吕子昂; 关键词：倒立摆

强化学习算法的稳定状态空间控制: 2008年; 强化学习算法的探索次数随着状态空间的增加呈指数增长,因此难以用于复杂系统的控制中。为克服这一问题,提出一种稳定状态空间控制的强化学习算法。算法以寻找稳定空间的最优控制动作为学习目标,将探索过程集中于稳定状态空间中,而不探索系统的全部状态空间。由于稳定状态空间通常仅占系统状态空间中的极小一部分,因此算法的探索次数不随状态空间的增加呈指数增长。; 郑宇罗四维吕子昂; 关键词：马尔可夫决策过程倒立摆

模型选择的曲率方法研究: 机器学习是人工智能的重要研究领域，模型选择是机器学习的重要研究内容。机器学习的许多实际问题中，需要从给定的有限观测数据推测产生这些数据的真实模型，而可能的模型往往有多个，从众多可能的模型中选择与未知的真实模型最匹配的模型...; 吕子昂; 关键词：神经计算统计模型

模型的固有复杂度和泛化能力与几何曲率的关系被引量：4: 2007年; 从微分几何角度考察与参数化形式无关的统计模型流形的固有复杂度,指出模型流形的Gauss-Kroneker曲率可以完全刻画模型流形在一点处的全部性质,进而分析了曲率与体积的关系;给出了基于参数估计量邻域附近的解轨迹方法的曲率计算方法;证明了用于衡量泛化能力的未来残差可以用模型的曲率来表示,由此给出一种新的以曲率度量模型复杂度的模型选择准则GKCIC;对几何方法和统计学习理论进行了分析比较．在人工数据集和真实数据集上的比较实验结果表明了文中提出的方法的有效性．; 吕子昂罗四维杨坚刘蕴辉邹琪; 关键词：泛化能力

倒立摆系统中强化学习的极限环问题被引量：2: 2008年; 倒立摆系统是强化学习的一种重要的应用领域。首先分析指出在倒立摆系统中,常用的强化学习算法存在着极限环问题,算法无法正确收敛、控制策略不稳定。但是由于在简单的一级倒立摆系统中算法的控制策略不稳定的现象还不明显,因此极限环问题常常被忽视。针对强化学习算法中极限环问题,提出基于动作连续性准则的强化学习算法。算法采用修正强化信号和改进探索策略的方法克服极限环对倒立摆系统的影响。将提出的算法用于二级倒立摆的实际系统控制中,实验结果证明算法不仅能成功控制倒立摆,而且可以保持控制策略的稳定。; 郑宇罗四维吕子昂; 关键词：极限环倒立摆

基于模型的层次化强化学习算法: 2006年; 针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.; 郑宇罗四维吕子昂; 关键词：倒立摆

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@海南省图书馆 2014－2015 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张