公共文化服务平台

基于信念点裁剪策略树的POMDP求解算法被引量：1: 2013年; 针对大规模部分可观察马尔可夫决策过程(POMDP)算法中策略树规模指数级增长、已证信念点(witness point,WP)求解困难的问题,根据策略树值函数是分段线性凸函数的特点,提出一种基于信念点的策略树增量裁剪和值迭代求解算法.在策略树生成过程中,利用边界点进行无损裁剪,利用中间点进行有损裁剪,并利用实时信念状态分布求取近似最优解.对比实验结果表明,该算法能快速收敛,以更少的时间获得相当精度的奖赏值.; 郑红燕仵博冯延蓬孟宪军

基于FPOMDP的无线传感器网络动态调度算法被引量：1: 2012年; 针对无线传感器网络节点能量有限、数据采集易受环境影响的问题,提出一种基于可分解部分可观察Markov决策过程FPOMDP(Factored Partially Observable Markov Decision Process)的节点休眠调度算法。通过节点空时相关模型求取休眠节点数据,利用网络数据准确性和节点能量间的条件独立关系,构造状态转移函数、观察函数和奖赏函数,采用值迭代求解算法求取最优策略,实现节点动态调度。仿真结果表明,该算法能够在保证数据准确性的前提下,有效降低节点能量消耗,延长网络生存时间。; 冯延蓬仵博郑红燕; 关键词：无线传感器网络

基于Markov决策过程的无线网络传输功率控制策略: 2013年; 针对同频AP在重复覆盖区域存在干扰问题,分析STA移动性和链路状态可观察的特点,引入概率论思想,提出一种基于Markov决策理论的单链路功率控制算法,通过构建单传输链路的状态集、动作集、状态转移函数模型及报酬函数模型,实现AP功率调整策略的动态生成和在线调整;利用OPNET仿真平台,搭建IEEE802.11b无线网络实验环境,实验结果表明该算法有效降低了AP能量消耗,提高了网络吞吐率。; 郑红燕冯延蓬仵博; 关键词：无线局域网无线接入点马尔可夫决策过程

认知无线电中一种n步串行信道感知策略被引量：1: 2013年; 为了提高频谱感知的整体性能,基于链路层多认知用户集中式协作感知思想,提出一种带缓冲区的双周期n步串行协作感知机制。该机制利用多认知用户分时、分段协作提高频谱感知效率,建立频谱池缩短被中断用户切换延迟时间,使用离散马尔可夫模型对感知参数建模,通过求解最优搜索步长和双感知周期比,提高认知用户频谱感知性能和QoS。仿真实验结果显示,该算法在感知效率、被迫中断概率和中断时间方面均优于随机搜索和传统串行搜索策略。; 郑红燕冯延蓬仵博孟宪军; 关键词：认知无线电频谱感知协作感知马尔可夫决策过程

异构无线传感器网络中基于POMDP的实时调度算法被引量：2: 2012年; 针对异构无线传感器网络节点性能存在差异和易受环境影响的特点,提出一种基于部分可观察Markov决策过程(partially observable markov decision process,POMDP)的实时休眠调度算法,使用状态转移函数和观察函数表示系统完成用户请求任务中存在的环境噪声和传输冲突等不确定性,使用回报函数表示采用不同调度策略对异构网络感知准确度和能量消耗的影响,采用基于当前信念点的在线求解算法求取最优策略。仿真结果表明:该算法能够平衡数据准确性与能量消耗,延长网络生存时间。; 冯延蓬仵博郑红燕; 关键词：异构无线传感器网络调度

WSN中一种目标追踪在线节点调度算法被引量：1: 2012年; 针对目标追踪无线传感器网络节点能量有限、感知信息存在不确定性等问题,提出一种基于部分可观察马尔可夫决策过程的在线节点调度算法。通过状态转移函数和观察函数描述移动目标的不确定性,根据奖赏函数平衡追踪性能和节点能量消耗,并构造有限深度的可达信念与或树降低运算复杂度,实现调度策略在线求解。实验结果表明,该算法能平衡目标追踪质量与节点能量消耗,且满足实时性要求。; 冯延蓬仵博郑红燕孟宪军; 关键词：部分可观察马尔可夫决策过程节点调度

基于后验信念聚类的在线规划算法: 2013年; 在连续状态的部分可观察马尔可夫决策过程中,在线规划无法同时满足高实时性与低误差的要求。为此,提出一种基于后验信念聚类的在线规划算法。使用KL散度分析连续状态下后验信念之间的误差,根据误差分析结果对后验信念进行聚类,利用聚类后验信念计算报酬值,并采用分支界限裁剪方法裁剪后验信念与或树。实验结果表明,该算法能够有效降低求解问题的规模,消除重复计算,具有较好的实时性和较低的误差。; 仵博吴敏; 关键词：部分可观察马尔可夫决策过程 KL散度

基于高斯回归的连续空间多智能体跟踪学习被引量：2: 2013年; 提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点.; 陈鑫魏海军吴敏曹卫华; 关键词：多智能体系统

基于B/S架构和缓存设计的三维吊装仿真: 针对三维吊装软件版本更新困难与网络仿真数据交互缓慢的问题,本文提出一种基于B/S架构和缓存设计的方法并在此基础上实现三维吊装仿真.首先,通过分析B/S架构的结构特点,设计三维吊装仿真的系统结构.然后,结合吊装功能,进行关...; 舒世龙吴敏安剑奇唐修俊; 关键词：B/S架构缓存技术吊装仿真; 文献传递

三维虚拟吊装环境下的距离检测方法: 针对三维吊装过程中虚拟物体间距离难以实时准确检测的问题,本文研宄一种三维虚拟吊装环境下的距离检测方法.首先选用基本几何体或AABB包围盒对三维物体进行包围;然后,根据对象的特点采用基于几何对称性或基于坐标变换的空间三维距...; 安剑奇王巍吴敏何勇; 关键词：三维仿真; 文献传递

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(61074058)