魏勇
- 作品数:9 被引量:9H指数:2
- 供职机构:北京应用物理与计算数学研究所更多>>
- 发文基金:国家自然科学基金中国工程物理研究院科学技术发展基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 基于GMA的轻量级高性能计算环境监控
- 2012年
- 针对高性能计算环境监控的一般要求,分析对比现有的监控体系结构,设计了基于GMA体系结构的监控系统,详细介绍了设计中的几个关键问题,并给出了解决办法,最后实现了一个轻量级且高效的高性能计算环境作业监测系统。
- 王伟魏勇张晓霞罗红兵
- 关键词:高性能计算环境监控系统
- Alltoall通信性能模型研究
- 2018年
- Alltoall是一种重要的MPI(message passing interface)集合通信类别,是影响许多并行程序并行效率的重要因素。但对于大规模并行计算机上Alltoall集合通信的评测和理论分析仍较为缺乏,导致许多应用程序的通信模块设计和使用不合理。首先,开展了MPI基本通信性能的测试和分析,发现随着MPI进程数的增加,其性能波动也增加,而这种波动源自网络竞争。为此,在传统的Alltoall性能评估模型中引入了网络竞争因素,新模型不仅考虑传统的通信带宽和通信延迟参数,还考虑了通信竞争因素。某国产并行机平台上的测试结果显示:引入网络竞争模型的新Alltoall性能评估模型可以较为准确地预估Alltoall性能,体现出网络竞争开销对Alltoall性能的影响。
- 罗红兵张晓霞魏勇
- 关键词:集合通信通信性能
- 大规模并行计算机作业调度评价被引量:4
- 2006年
- 大规模并行计算机的作业调度直接关系到其计算能力的发挥,因而相应的研究具有十分重要的意义。论文通过对国外现有作业调度评价体系的研究,建立了更能反映并行作业特点的作业调度策略评价体系,在此基础上设计并实现了一个作业模拟调度环境。模拟调度环境采用事件驱动的工作模式,支持FCFS、大作业优先、小作业优先、长作业优先、短作业优先、GANG等调度策略。模拟测试结果表明,GANG调度策略优于所有测试的空间共享调度策略;同时在空间共享调度策略中,短作业优先策略和大作业优先策略具有较好的性能。
- 罗红兵张晓霞魏勇
- 关键词:大规模并行计算机作业调度
- 提高集群系统稳定性的自动化管理方法被引量:1
- 2011年
- 为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率.
- 魏勇邢莉武林平罗红兵
- 关键词:中国国家网格集群系统稳定性主动容错
- 系统噪音影响的量化分析
- 管系统噪音对单个进程的影响有限,但对于大规模并行程序性能的影响不容忽视。本文提出一种基于并行程序计算一通信特征的噪音影响定量评估方法FWQ—MIoI,并给出噪音影响的四个量化指标:噪音量比例、噪音影响比例、实际计算通信时...
- 武林平魏勇徐小文刘旭
- 基于GMA的轻量级高性能计算环境监控
- 针对高性能计算环境监控的一般要求,分析对比现有的监控体系结构。设计了基于GMA体系结构的监控系统,详细介绍了设计中的几个关键问题并给出了解决办法,最后实现了一个轻量级且高效的高性能计算环境作业监测系统。
- 王伟魏勇张晓霞罗红兵
- 关键词:高性能计算环境监控系统
- 提高集群系统稳定性的自动化管理方法
- 为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果。分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失...
- 魏勇邢莉武林平罗红兵
- 关键词:中国国家网格集群系统稳定性分析主动容错
- 系统噪音影响的量化分析被引量:4
- 2015年
- 尽管系统噪音对单个进程的影响有限,但对于大规模并行程序性能的影响不容忽视.提出一种基于并行程序计算-通信特征的噪音影响定量评估方法FWQ-MPI,并给出噪音影响的4个量化指标.选取求解稀疏线性代数方程组的3种迭代方法作为研究对象,抽取迭代方法的计算、同步通信特征形成微测试程序;在实际系统上的测试数据明确了系统噪音对并行程序性能的影响机理,并得到系统噪音对并行程序性能影响的若干规律:1)BSP并行程序运行过程中,系统噪音量比例不大,约为2%~6%;2)但系统噪音对BSP并行程序的性能有着较大的影响(当并行规模在1024,2048,4096时,噪音影响比例约为30%~70%);3)其影响随着并行程序规模的扩大而增加,随着2次同步通信间隔内计算量的增加而降低;4)系统噪音的影响主要体现在BSP并行程序的“实际计算通信时间比”要远小于“理想计算通信时间比”.
- 武林平魏勇徐小文刘旭
- 关键词:负载平衡数值模拟
- 多核集群中系统噪音的测量
- 并行程序在运行过程中,位于计算节点上的进程经常由于CPU要处理来自硬件、固件、节点操作系统、系统管理软件等部件的干扰而被迫中断,这些由于系统部件所引起的计算进程中断被称之为“系统噪音”.相关研究表明,噪音的叠加对大规模并...
- 武林平Wu Linping魏勇Wei Yong刘旭Liu Xu
- 文献传递