赵华茗
- 作品数:20 被引量:138H指数:7
- 供职机构:中国科学院文献情报中心更多>>
- 发文基金:国家社会科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学天文地球更多>>
- 基于XENServer的数字图书馆云服务平台实现研究被引量:17
- 2010年
- 云计算促进了信息服务的规模化、集约化和专业化发展,具有很广泛的应用前景。本文以国家科学图书馆云服务平台为例,介绍基于虚拟技术的数字图书馆云服务平台的设计与实现,详细论述云计算如何在数字图书馆建设中实现计算资源的集约化和信息服务的专业化,提出了数字图书馆云服务平台的整体构架,给出了云服务平台基础构架的搭建解决方案和关键接口的实现方式。
- 赵华茗李春旺周强
- 关键词:云服务平台虚拟技术数字图书馆
- 分布式环境下的文本聚类研究与实现被引量:3
- 2015年
- 【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。
- 赵华茗
- 关键词:分布式环境聚类文本聚类HADOOP
- 中国地质科学院机构科技论文收录情况统计被引量:2
- 2003年
- 史静赵华茗李万伦刘素芳
- 关键词:科技论文文献计量学
- 搭建基于云计算的开源海量数据挖掘平台被引量:11
- 2010年
- 通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术Xen和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR平台的优势分析。实施方案主要分为三部分:搭建动态虚拟的云计算环境、安装制作Hadoop虚拟服务器模板、配置运行Cloudera和Cloudera Desktop。通过开源EMR架构的应用,可以有效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式数据挖掘服务的快速布署能力及灵活性。
- 赵华茗
- 关键词:云计算海量数据挖掘虚拟技术分布式计算XEN
- 大型网站的架构研究及解决方案被引量:3
- 2017年
- 随着互联网业务的发展,网站规模越来越大,各种技术被提出以用于提升网站的性能、可用性、伸缩性、扩展性、安全性。在分析影响性能、可用性、伸缩性、扩展性和安全性等架构因素的基础上,提出了一套网站架构解决方案,并为图书馆集成发现系统的管理运维探索总结成功经验。
- 周强谢靖赵华茗
- 关键词:可用性伸缩性扩展性
- 分布式环境下的文档相似度研究与实现
- 针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,本文以非结构化文档为研究对象,提出一种基于HADOOP 分布式环境,结合Hive数据处理平台和POSTGRESQL 关系型数...
- 赵华茗
- 关键词:HADOOP相似度
- 搭建基于云计算的开源海量数据挖掘平台
- 本文通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术XEN和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出了实施方案、海量文本数据处理案...
- 赵华茗
- 关键词:海量数据挖掘虚拟技术分布式计算
- 文献传递
- 依存句法特征的科研命名实体识别算法被引量:6
- 2020年
- [目的/意义]探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程]以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工具对目标文本进行词性标注;②基于标注结果,围绕核心谓词和SAO结构,将目标文本分割为结构规范的语义片段;③通过依存句法分析,找出与核心谓词语义相关的主语和宾语,构成(实体,关系,实体)三元组。[结果/结论]与Ollie、Reverb等主流算法进行的对比测试表明,该方法可以有效提升科研命名实体识别的准确性。
- 赵华茗钱力余丽
- 关键词:依存句法分析关系抽取
- 国内外开放学术资源整合研究现状述评与比较被引量:7
- 2017年
- [目的 /意义]为开展开放学术资源整合服务建设提供参考与借鉴。[方法 /过程]分别对国内外开放学术资源整合方面的研究现状进行了梳理和总结,认为国内的研究成果主要集中在开放学术资源整合构建的理论、技术方法与工具、资源再利用和版权政策研究等方面,国外则对开放学术资源整合的概念认识、框架和结构、开放学术资源整合中运用的技术方法以及在不同领域的应用等方面进行了深入的研究。[结果/结论]通过对国内外研究成果的比较分析,得出国内外开放学术资源整合研究的共同点在于研究关注点、研究方法以及实践应用的研究,区别在于研究主体、研究视角和研究深度。
- 赵华茗钱力谢靖
- 关键词:学术资源资源整合
- 分布式环境下的文档相似度研究与实现被引量:6
- 2011年
- 针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并给出关键技术思路、具体实现步骤和实证研究,通过研究证明Hive SQL语言可有效简化分布式数据处理的复杂性,但实时性有待改进。
- 赵华茗
- 关键词:HADOOP相似度非结构化