搜索到4412篇“ 马尔可夫决策过程“的相关文章
- 马尔可夫决策过程
- 侯振挺
- 关键词:马尔可夫过程
- 马尔可夫决策过程
- 1990年
- White,CC 刘迪芬
- 关键词:马氏决策过程
- 基于马尔可夫决策过程的附加服务定价优化
- 2024年
- 随着民航运输业竞争日益加剧以及航空旅客个性化需求逐步提高,为取得差异化竞争优势和提高旅客满意度,开展附加服务业务是目前国内外航空公司关注的焦点,如何对附加服务定价以增加收益是目前航空公司运营的一个重要问题.为此基于马尔可夫决策过程提出了一种附加服务定价模型,并使用策略迭代算法对该模型进行求解以获得最优价格.对两类旅客细分市场进行仿真实验.结果表明,相比于现行使用较多的附加服务短视化定价模型,通过该模型求解得到最优价格将每位旅客的平均预期收益从93.7元提高到102.1元,提升幅度约8.96%.
- 杨明霞朱星辉
- 关键词:航空运输收益管理马尔可夫决策过程策略迭代
- 基于马尔可夫决策过程的边缘云业务迁移算法
- 2024年
- 在移动互联网中,当用户位置发生改变时,业务迁移可用来提升服务质量(QoS)。基于此,提出一种基于马尔可夫决策过程的边缘云业务迁移算法。与对比算法相比,所提算法考虑了不同业务类型对QoS的差异化需求,并全面考虑了业务迁移过程中的收益及开销。所提算法将业务分为实时和非实时2类,将终端的业务运行状态和与服务器的距离作为状态空间,并基于与业务体验紧密相关的可用速率和时延2个QoS指标构建收益函数,同时将业务迁移过程中的系统资源消耗作为迁移开销,通过最大化全局收益来获取最优迁移策略。通过与对比算法的模拟比较,所提算法在多种场景下都有更高的全局收益。
- 马安华潘甦
- 关键词:马尔可夫决策过程服务质量
- 一种基于马尔可夫决策过程的社区储能调度方法
- 本发明属于电网调度技术领域,尤其涉及一种基于马尔可夫决策过程的社区储能调度方法。本发明方法首先建立一个基于马尔可夫决策过程的社区储能调度方法,将社区储能管理模型改写为贝尔曼方程,利用最优策略的阈值方法,求解与社区储能调度...
- 孙宏斌孙勇郭庆来李宝聚王彬李振元邓莉荣吕项羽潘昭光李德鑫张璇王佳蕊阳天舒张懿夫
- 预测资源分配::马尔可夫决策过程的无监督学习
- 2024年
- 当已知未来的移动轨迹等信息时,面向视频点播业务的预测资源分配可以在满足用户体验的前提下降低基站能耗或提高网络吞吐量传统的预测资源分配方法采用先预测用户轨迹等信息再优化功率等资源分配的方法,在预测窗较长时预测误差大,导致预测所带来的增益降低.为了解决这个问题,近期已有文献把预测资源分配建模为马尔可夫决策过程,采用深度强化学习进行在线决策.然而,对于这类适于采用强化学习的马尔可夫决策过程,现有文献往往以试错的方式对状态进行设计.此外,对于有约束的优化问题,现有利用强化学习解决无线问题的方法大多通过在奖励函数上加入包含需要手动调节超参数的惩罚项满足约束.本文以移动用户视频播放不卡顿约束下使基站发射能耗最小的问题为例,提出在线求解预测资源分配的无监督深度学习方法对信息预测和资源分配进行联合优化,并建立这种方法与深度强化学习的联系.所提出的方法可以通过在线端到端无监督深度学习提高预测资源分配的性能,能以系统化而非试错式的方式设计状态,可以自动而非通过引入超参来满足复杂的约束.仿真结果表明,所提出的在线无监督深度学习与深度强化学习所达到的发射能耗相近,但能够简化状态的设计,验证了理论分析结果.
- 吴佳骏赵剑羽孙乘坚杨晨阳
- 关键词:马尔可夫决策过程
- 马尔可夫决策过程在呼吸机参数获取中的应用
- 2024年
- 本文从提高呼吸机治疗的安全和有效性出发,以马尔可夫决策过程为基础,在呼吸机参数的获取方面进行探索。以变分自编码器和策略优化模型为基础,以动作策略获取模块为依托,以强化学习算法为基础进行参数的优化获取。实验结果表明,在呼吸机参数的获取上具有更高的安全性和治疗效果,在医疗决策支持系统的开发上具有理论依据和技术参考作用。因此本研究为呼吸机参数的智能获取提供了新方法。同时对于提高呼吸机治疗的临床应用具有重要的意义。
- 刘瑜珈王磊董琳
- 关键词:马尔可夫决策过程呼吸机参数
- 一种基于部分马尔可夫决策过程的无人车辆导航决策规划系统及方法
- 本发明提供了一种基于部分马尔可夫决策过程的无人车辆导航轨迹规划系统及方法,属于无人车辆导航决策规划领域。为了解决现有无人车辆在单车道非封闭场景下面对不同速度的障碍物,无法做出有效且准确的局部路径决策的问题。局部决策模块依...
- 李鹏鹏王开强白宇孙庆刘威李卫华王剑锋叶贞周勇杨朋崔志鹏
- 一种基于部分马尔可夫决策过程的无人车辆导航决策规划系统及方法
- 本发明提供了一种基于部分马尔可夫决策过程的无人车辆导航轨迹规划系统及方法,属于无人车辆导航决策规划领域。为了解决现有无人车辆在单车道非封闭场景下面对不同速度的障碍物,无法做出有效且准确的局部路径决策的问题。局部决策模块依...
- 李鹏鹏王开强白宇孙庆刘威李卫华王剑锋叶贞周勇杨朋崔志鹏
- 基于约束马尔可夫决策过程的风光火储系统协同调度方法及系统
- 本发明公开了一种基于约束马尔可夫决策过程的风光火储系统协同调度方法及系统,包括:获取马尔可夫决策模型在风光火储系统下需要满足的约束条件;在风火光储系统约束条件的基础上,获取风火光储发电机的状态空间、动作空间和奖励函数;基...
- 俞灵王佳琪武书舟黄宇鹏杨楠杨清波张周杰冯琼王岩宁馨付聪倪铭坚
相关作者
- 张一晋

- 作品数:126被引量:36H指数:4
- 供职机构:南京理工大学
- 研究主题:马尔可夫决策过程 车联网 吞吐 无人机 认知无线电网络
- 仵博

- 作品数:85被引量:188H指数:7
- 供职机构:深圳职业技术学院
- 研究主题:部分可观察马尔可夫决策过程 信念 ROBOCUP 无线传感器网络 GSM
- 陈前斌

- 作品数:1,249被引量:1,680H指数:18
- 供职机构:重庆邮电大学
- 研究主题:网络 资源分配 基站 切片 卸载
- 唐昊

- 作品数:196被引量:227H指数:8
- 供职机构:合肥工业大学
- 研究主题:性能势 Q学习 柔性负荷 站点 优化控制
- 赵楠

- 作品数:160被引量:63H指数:5
- 供职机构:湖北工业大学
- 研究主题:私有信息 协作通信 可调衰减器 契约 网络