国家自然科学基金(91224006) 作品数:14 被引量:301 H指数:7 相关作者: 黎建辉 周园春 张晓林 刘峰 沈志宏 更多>> 相关机构: 中国科学院 中国科学院大学 中国科学院文献情报中心 更多>> 发文基金: 国家自然科学基金 国家科技支撑计划 中国科学院战略性先导科技专项 更多>> 相关领域: 自动化与计算机技术 文化科学 社会学 经济管理 更多>>
基于短文本的食源性疾病事件探测技术 被引量:1 2016年 微博数据是短文本事件探测的典型数据源,由于微博内容的多样性、稀疏性和碎片性,现有事件探测方法使用的数据源单一且噪声较大,在时空信息的发现上粒度过大,导致结果的准确性差。因此,在事件探测算法上提出动态上下文窗口算法,构建候选微博进行事件探测,提高了事件探测的效率和精度。并提出利用微博内容发现特定事件地理位置信息的算法,提高了事件时空信息的获取精度。最后应用于食源性疾病事件的自动探测中,相比以往的事件探测方法,扩大了数据来源,且时间和空间维度上的准确性得到显著提高。 祝天刚 郭旦怀 王学志 黎建辉 周园春关键词:时空信息 食源性疾病 TeamDR:面向科研团队的数据知识库管理系统 被引量:4 2016年 【目的】针对科研团队中分散的科研数据缺乏有效存储、管理,无法复用的问题,研发专门的数据知识库管理系统TeamDR。【应用背景】TeamDR是支撑课题组等科研团队用户完成科研数据组织、存储、管理及协作共享的便捷Web应用工具;它采用Java为主要编程语言,提供注册即可用的云服务版和本地安装版两个版本。【方法】针对科研多数据类型组织管理问题,设计动态元数据内容模板,同时为保证数据存储容量的可伸缩性、查询性能达到较高水平,采用MongoDB作为存储设计。【结果】TeamDR实现了科研团队数据存储与管理方面的重要功能:如动态元数据模板、分级共享控制、元数据全文检索等,试用反馈表明它满足了用户在数据存储管理方面的迫切需求。【结论】TeamDR系统可以有效解决团队科研数据存储与管理、共享与协作、发现与关联方面的迫切基本需求。但在功能便捷性、完备性、扩展性方面存在进一步加强的空间。 刘峰 黎建辉 张进 韩芳 刘昂关键词:科研团队 数据管理 面向LOD的关联发现过程的定位、目标与复杂性分析 被引量:7 2013年 本文以关联数据应用过程中的关联发现过程为研究对象,分析了面向关联开放数据(LOD)的关联发现过程的定位、目标与复杂性。本文认为,关联发现过程处于关联数据应用过程三阶段(数据发布、数据互联与数据消费)中的第二阶段。关联发现过程的整体目标是构建多类资源之间的关联数据网络,该过程的本质就是关联数据网络不断演变的过程。关联发现的过程具有多任务、多路径、多步骤等复杂性特征。目前流行的关联发现框架还存在缺乏对整个网络演变过程的支持、任务类型单一、缺乏流水线机制等不足。因此,关联发现技术的研究急需新的面向整个关联数据网络的、支持完整演变过程的、支持多任务集成的理论、方法与框架。图5。表1。参考文献17。 沈志宏 黎建辉 张晓林关键词:关联数据 数据互联 科学数据元数据标准述评及其通用化设计研究 被引量:33 2015年 【目的】对科学数据的元数据标准进行全面梳理,并构建科学数据元数据标准通用数据项设计模型。【方法】对当前科研领域6种典型的元数据标准进行概述与分析,在统计的基础上设计科学数据通用元数据规范。【结果】各个学科领域元数据标准在格式、组织、表达方面差异性明显;但同时它们的构成要素也存在相似性,可以依此构建通用元数据规范。【结论】面向学科领域的科学数据元数据标准促进了科研的发展,但也为科学数据的统一管理与服务提出挑战。基于各类元数据标准构成要素的统计而构建通用元数据规范是解决这个问题的一种思路。 刘峰 张晓林关键词:科学数据 元数据标准 故障诊断知识建模及系统 被引量:2 2016年 有效进行故障诊断可以提高客户满意度,故障诊断知识建模是其中的关键。针对故障诊断知识建模问题,提出基于本体元数据的故障诊断知识建模方法 KSM(Knowledge Solution Model):KSM主要由描述诊断方案的应用环境的元数据组和详细诊断方案(简称详细方案)构成。主要元数据包括:语种、方案名称、主题词、问题编号、产品线信息(如产品线、机型信息、部件信息等)、关联文档、访问角色、方案特征等。详细方案是一棵由多个步骤组成的树。步骤由一个或多个叶子步骤组成。叶子步骤不可再分。叶子步骤由一系列的引导状态、引导动作、用户应答和跳转指令等部分组成。该方法和模型成功应用于国内某大型IT企业。并于2010年正式上线。实验结果令人满意,结论是KSM可以有效解决故障诊断知识的建模问题,为后续的故障诊断建立知识基础。 王卫民 贺冬春关键词:故障诊断 知识管理 本体 中国科学院科学数据云建设与服务 被引量:7 2016年 科技数据资源整合与共享工程是中国科学院"十二五"五大信息化工程之一。总结了该项目的整体建设思想、建设情况、技术创新和服务创新等内容。截至项目结束,数据工程建成了存储容量达52 PB的分布式海量存储环境;整合可共享科学数据总量近655 TB,累计访问人次9 629万次,累计下载量456 TB;同时为用户提供强大的科学数据与文献互联以及丰富的可视化展示平台。工程实现了以基础设施云服务、科研数据云服务、数据应用云服务为主体的多层次、交叉式信息化服务体系,逐渐建设形成共享开放、服务创新的国家级科技数据中心。 黎建辉 周园春 胡良霖 刘峰 朱艳华 沈志宏 吴章生 张杨关键词:科学数据 分布式服务 技术架构 全球食品安全信息监控与分析云平台架构研究 被引量:14 2014年 结合云计算、云存储、分布式计算框架、结合主题和及时需求的信息爬取、基于从正例和无标注数据中学习方法的垃圾意见识别、基于本体的食品安全事件信息提取等关键技术,研究设计了全球食品安全信息监控与分析云平台,应用过程中发现其进行食品安全事件预警的效果较好。介绍了云平台的架构和关键技术。 黎建辉 杨风雷 崔建业 周园春 张波 巩晓东 赵红新关键词:信息监控 云计算 大数据 食品安全 支持向量机理论及算法研究综述 被引量:202 2014年 介绍了SVM的理论基础和它的多种主要算法及这些算法的利弊与发展现状,并介绍了SVM在现实生活中的应用原理及应用现状。最后分析了SVM在发展中的不足之处,指出了其研究方向及前景,并提出在分布式支持向量机这个方向上可以进行更深层次的研究。 汪海燕 黎建辉 杨风雷关键词:支持向量机 统计学习理论 模糊支持向量机 多分类支持向量机 模式识别 用于生命之树重建的数据集 被引量:1 2017年 由中国科学院计算机网络信息中心、中国科学院植物研究所、深圳市中国科学院仙湖植物园“三方两地”共同合作研究建设的“达尔文树”——分子数据分析应用环境(DarwinTree——Molecular Data Analysis and Application Environment),从中国陆地植物发育系统框架的研究出发,逐步推动解决生命之树构建过程中存在的技术难题,探索利用基因和基因组信息构建生命之树的策略和方法,研究和开发DNA序列信息自动采集和生命之树自动生成技术(Automatic Reconstruction of The Tree of Life),建立生命之树信息平台及其利用体系,为最终在我国建立具有国际影响的,能很好地兼容物种分类、地理分布、形态性状、化石信息以及DNA信息的物种库(Species Bank)创造条件。DarwinTree旨在为科研人员提供数据和分析并举的工作平台,该平台将承担数据汇集和面向实际科研工作应用的双重作用。本文发布的数据集包括:(1)DarwinTree基础数据集:来自国际公共序列数据的标记处理得到的分子标记数据及其与任意阶元物种分类名称对应的统计数据集;(2)DarwinTree自测序数据集:面向中国陆地植物研究的补充测序序列数据;(3)DarwinTree中国维管植物进化数据集:已构建的中国维管植物属系统发育树的数据(Generic tree of Chinese vascular plants)。 孟珍 杨拓 刘红梅 黎建辉 曹巍 刘勇 杲艳平 刘奇 林小光 何星 邵靖 郑波 王学志 周园春 陈之端 林立 苏俊霞 孙苗 董晓宇 李洪雷 鲁丽敏 张景博 朱新宇 李勇 张寿洲 董慧 廖一颖 杨蕾蕾 万涛关键词:生物进化 分子序列 关联数据互联技术研究综述:应用、方法与框架 被引量:17 2013年 以关联数据互联技术为研究对象,分别从应用实例、方法和算法、框架三个方面阐述其研究现状。指出关联数据的互联技术还需要进一步的深入,主要包括:关联数据互联应用领域需要进一步拓展,关联算法需要考虑来自大关联数据的需求,关联发现框架需要面向任务支持更丰富的任务类型,并提供流水线机制和全局的规划以及流程控制能力。 沈志宏 黎建辉 张晓林关键词:关联数据 互联