国家高技术研究发展计划(2006AA01A120)
- 作品数:27 被引量:111H指数:7
- 相关作者:程耀东张彦霞冯敏赵永恒阎保平更多>>
- 相关机构:中国科学院中国科学院研究生院中国科学院国家天文台更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金中国科学院知识创新工程重要方向项目更多>>
- 相关领域:自动化与计算机技术天文地球自然科学总论更多>>
- 基于Lustre的BES集群存储系统被引量:4
- 2010年
- 满足BES计算庞大的I/O访问需求,需要先进的存储体系结构和合理的配置。描述了基于Lustre的BES集群存储系统的设计和实现。介绍了Lustre的组成和作为PetaScale级分布式文件系统的设计特点,描述了BES集群存储系统的具体实现,分析了系统的负载特征。分析了硬件级、操作系统级和文件系统级的性能影响因素,并针对关键因素的不同配置做了测试,提出性能优化方案。
- 汪璐石京燕程耀东
- 关键词:LUSTRE
- 海量分级存储系统中磁带访问性能优化被引量:1
- 2011年
- 磁带是顺序访问设备,其访问性能因受到多方面因素的影响而变化很大,因此进行针对性的优化非常必要;采用基于磁盘-磁带的分级存储管理是海量存储系统中最常用的技术手段之一,首先对当前磁带访问的现状和影响因素进行分析,然后对性能优化方法进行探讨,包括驱动器调度、迁移策略、文件大小、磁带文件顺序等;实验结果表明,海量分级存储系统将网络存储架构与磁带存储结合起来,具有良好性价比,在高能物理、数字媒体等领域得到广泛应用。
- 芦艳芳程耀东
- 关键词:海量存储高能物理
- 数据挖掘技术在天文学中的应用被引量:7
- 2011年
- 天文学成为数据异常丰富的学科,与信息技术的融合催生了天文信息学。信息技术在天文学中的交叉应用,可以大大促进天文学的发展。本文介绍了一些大型巡天项目,描述了天文数据的特点,给出了天文数据挖掘的必要性,重点介绍了天文学中数据挖掘任务、常用的数据挖掘技术并分析了它们的优缺点,以及一些天文数据挖掘应用和天文数据挖掘项目。也指出了天文数据挖掘面临的挑战。
- 张彦霞赵永恒
- 关键词:天文学巡天数据挖掘聚类
- 两颗太阳孪生星的光谱分析与太阳颜色的确定
- 2009年
- 利用国家天文台兴隆观测站2.16米望远镜的折轴摄谱仪,获得了两颗太阳孪生星HD146233和HD195034的高分辨率光谱数据,经过光谱匹配、化学组成和色球活动比较,发现这两颗恒星除Li元素丰度之外,其他的特征都非常相似于太阳.同时,我们对文献中已发现的九颗太阳孪生星候选体(包括HD146233和HD195034)进行进一步检验,从中选出6颗太阳孪生星确定了太阳的Johnson/Cousins,Tycho,2MASS,Stromgren测光系统的颜色,即(BVV)⊙=0.644mag,(V-Ic)⊙=0.707mag,(BT-VT)⊙=0.726mag,(J-H)⊙=0.280mag,(H-K)⊙=0.066mag,(v-y)⊙=1.028mag,(v-b)⊙=0.619mag,(u-v)⊙=0.954mag,(b-y)⊙=0.409mag.特别地,我们确定的太阳色指数(V-Ic)⊙,(BT-VT)⊙,(J-H)⊙,(H-K)⊙,(v-y)⊙,(v-b)⊙和(u-v)⊙的值以更高的精度更新了先前的结果.
- 赵正实陈玉琴赵景昆赵刚
- 关键词:元素丰度
- 一种文献元数据搜索与共享系统
- 2011年
- 基于元搜索和Web信息抽取,介绍一种文献元数据搜索与共享系统,可提供统一的检索接口,对来自多个数据源的数据进行收集和整合,将文献按相关度排序,并实时查找文献信息及出处,提供基于文献元数据的共享与讨论平台,以便科研人员进行学术交流和协作。实验结果表明,该系统查询性能较好,可有效提高科研工作的效率。
- 杨文涛赵娟南凯
- 关键词:元搜索信息抽取元数据数据共享
- GPU技术在天文学中的应用被引量:1
- 2011年
- 本文简单介绍了GPU技术的发展历程,并行运算时的工作特点,在具体的研究课题中应用GPU技术时注意的事项及发挥其性能时需要注意的细节问题。我们重点描述了当前在天文学领域的11种GPU应用情况,以及它们取得的显著成果,比如N体模拟、射电干涉仪、地外行星搜寻等。从这么多的应用来看,与GPU相比,GPU可以使得运算速度显著提升1~2个数量级,在地外行星搜索中甚至可以使得加速比达到惊人的600倍。一定条件下,GPU甚至可以与专门针对天文应用的系列计算机GRAPE性能相媲关。随着各种大型望远镜和巡天项目的出现,天文数据已经跨入了海量时代,天文计算将面临一个新的挑战,GPU技术将成为解决这个课题的重要选择。
- 彭南博张彦霞
- 关键词:天文学GPUCUDA加速比
- 基于衰减模型的混合属性数据流离群检测被引量:2
- 2010年
- 数据流离群检测因内存容量限制和实时检测需求而成为离群检测的一个难点。介绍了一种快速混合属性数据流离群检测算法。在衰减模型下增量聚类数据流,生成代表数据分布的聚类特征集合,半径阈值动态变化;当接收到检测请求时,计算满足条件的每个簇的离群因子,具有高离群因子的簇作为结果输出。同时提出了一种可有效区分离群簇与数据进化初始阶段的方法。算法的时间与空间复杂度同数据流规模近似成线性关系,在真实数据集上的实验结果显示,该算法可有效检测混合属性数据流中的离群点。
- 苏晓珂兰洋秦玉明程耀东
- 关键词:数据流增量聚类离群检测
- 基于约束的混合属性增量聚类算法
- 2010年
- 为解决大规模数据集聚类过程中内存容量受限问题,提出了一种基于聚类个数约束的快速聚类算法,只需扫描一趟原始数据集,半径阈值随聚类过程动态变化;同时定义了一种包含分类属性取值频率信息的类间差异性度量,可用于混合属性数据集,时间复杂度与空间复杂度同数据集大小、属性个数近似成线性关系。在KDDCUP99数据集上的实验结果表明,提出的算法输入参数少,具有良好的聚类特性,可用于大规模数据集。
- 苏晓珂兰洋程耀东万仁霞
- 关键词:增量聚类大规模数据集
- 一种深度网络数据库集成技术研究
- 2009年
- 近来研究表明,Deep Web提供的高质量专业数据信息对e-Science环境是极为有价值的。本文就如何集成深度网数据库技术进行了研究与探讨,包括建立有效的Deep Web爬虫、匹配Schema自动填写查询表单、集成深度网数据库查询接口以及建立统一用户查询界面等相关技术。
- 杨宏伟马永征钱芳
- 关键词:深度网
- 基于自动聚类算法(AutoClass)的恒星/星系分类被引量:8
- 2009年
- 自动聚类算法(AutoClass)是一种非监督的能对复杂数据进行精确的自动聚类的有效分类方法,可以事先设定好类别数目让AutoClass自动寻找,在寻找结束后,能够得到每一条数据分别属于每一类别的几率,这样可以根据专业知识,选出比较好的分类效果.描述了使用AutoClass对SDSS DR6的恒星/星系测光数据进行分类,将868974条测光数据进行处理,通过去离群数据和自动聚类的方法,将最终的812613条数据分成两类,其中星系和恒星的数据分别是680361和126988条.对于去掉离群后的数据,星系和恒星的分类正确率分别达到99.51%和98.52%,表明AutoClass算法对去掉离群数据后的恒星/星系数据分类有很好的效率.因此,可以将该算法应用于天文中的其他分类问题,另外基于该算法的非监督性,可以帮助天文学家去掉离群数据或发现一些特殊天体.
- 严太生张彦霞赵永恒李冀
- 关键词:恒星星系数据分析