霍菁
- 作品数:6 被引量:16H指数:2
- 供职机构:中国科学院高能物理研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种改进的DRF算法对BESIII集群资源管理的优化被引量:4
- 2014年
- 根据BESIII集群的实际需求,在测试和研究了不同类型的高能物理数据处理作业不同配置机器上的运行效果的基础上,提出了一种改进的DRF资源分配算法,加入了机器性能评级和作业类型匹配两个因素作为资源调度的依据,对算法进行实现并使用真实数据进行了实验测试。测试结果表明:新算法能够更加合理地分配资源,有效提高系统资源利用率,缩短作业运行时间。
- 霍菁石京燕孙功星阚博文
- 关键词:TORQUEHADOOP
- 支持异构集群并行的高能物理数据处理系统被引量:2
- 2015年
- 传统集群计算系统无法充分利用本地磁盘的存储资源和I/O,大量网络I/O成为系统瓶颈,导致资源利用率降低,并造成高昂的存储和网络成本。使用Hadoop处理分析作业可有效利用本地磁盘存储和I/O资源,而集群资源统一管理工具Mesos则使用轻量化的设计和高效的通信机制,能在不同计算集群之间动态共享集群资源。为此,分析高能物理数据处理的特点,利用Mesos构建异构集群间资源共享的高能物理实验数据处理系统,实现Torque/Maui和Hadoop集群的集成。测试结果表明,该系统能够在集群间动态分配集群资源,并利用本地存储和磁盘I/O显著降低网络I/O,提高集群资源利用率。
- 霍菁雷晓凤李强孙功星
- 关键词:高能物理资源共享HADOOP平台
- 一种数据本地化存储与处理系统被引量:2
- 2012年
- 简述了当前大型数据中心普遍采用的计算节点集群与存储系统模块化设计的系统结构,说明了部署在各模块上的主要集群系统。分析了具有独立性的结构化数据本地化存储于计算节点的可能性,给出了系统基本框架,从总体拥有成本(TCO)的角度分析了其价值。结合高能物理研究的原始数据特点,认为数据本地化存储在节点上,有利于提高整体利用率,指出了关键部件——文件元数据管理系统的设计要点,分析了PBS作业批处理系统集成文件元数据管理系统的三种方案,给出第一种方案的详细设计,相应的用户提交作业方式的改变。在测试环境下,初步部署了文件元数据管理系统,测试了三种集成方案,给出了简要的分析比较。
- 徐永士霍菁孙功星
- CMS实验元数据发现的数据聚集系统
- 2014年
- 在大型强子对撞机上的紧凑繆子螺线管探测器实验,具有数据量大(PB级规模)、数据类型复杂与数据地理上全球分布的特点。记录上述数据的元数据达到TB级的规模,并且以不同的格式保存在不同的关系和非关系数据源中,通过在这些异构数据源上添加一个缓存层的方法,实现一个提供精确的关键词查询的数据聚集系统。根据多重映射和聚集的方式支持用户的查询,并利用有效的缓存管理策略来提升查询的命中率。实验结果表明,该系统能够通过缓存的方式响应超过70%的用户查询,具有良好的查询性能。
- 梁栋臧冬松霍菁孙功星Valentin Kuznetsov
- 关键词:关键词查询数据聚集缓存管理异构数据源
- 分布式文件元数据管理系统设计
- 本文简述了实验用的分布式文件元数据管理系统的应用环境和设计目标。目标系统设定应用于高能物理数据分析,关联Torque 作业批处理系统;在这些条件的限制下,简要分析了驻留在被管理节点的守护进程的功能需求,并以此为基础给出了...
- 徐永士霍菁孙功星
- 关键词:分布式文件系统模块化设计
- 基于MapReduce的高能物理数据分析系统被引量:9
- 2014年
- 将MapReduce思想引入到高能物理数据分析中,提出一个基于Hadoop框架的高能物理数据分析系统。通过建立事例的TAG信息数据库,将需要进一步分析的事例数减少2-3个数量级,从而减轻I/O压力,提高分析作业的效率。利用基于TAG信息的事例预筛选模型以及事例分析的MapReduce模型,设计适用于ROOT框架的数据拆分、事例读取、结果合并等MapReduce类库。在北京正负电子对撞机实验上进行系统实现后,将其应用于一个8节点实验集群上进行测试,结果表明,该系统可使4×10-6个事例的分析时间缩短23%,当增加节点个数时,每秒钟能够并发分析的事例数与集群的节点数基本呈正比,说明事例分析集群具有良好的扩展性。
- 臧冬松霍菁梁栋孙功星
- 关键词:高能物理MAPREDUCE模型集群分布式计算