刘务华
- 作品数:5 被引量:26H指数:3
- 供职机构:中国科学院研究生院更多>>
- 发文基金:国家科技基础条件平台建设计划更多>>
- 相关领域:自动化与计算机技术更多>>
- Web社区搜索引擎的研究与设计被引量:3
- 2006年
- Web社区是组织之间实现信息交流、共享和讨论的环境。一个Web社区一般涉及几十到几百个组织,怎样快速的从组成Web社区的组织中获取信息是一个很重要的问题。论文分析了Web社区搜索的特点,介绍了Web搜索引擎的基本原理。基于Web抓取器,向量空间模型,结合相关性排序等技术实现了一个Web社区搜索引擎——ChinalabSearch,详细阐述了系统的体系结构。根据对系统的性能评估,系统满足Web社区的搜索要求,可以提高在社区内查找信息的效率,为组织间的合作提供方便。
- 刘务华罗铁坚王文杰
- 关键词:WEB社区搜索引擎向量空间模型VSM信息获取
- 一个Web社区搜索引擎系统被引量:3
- 2007年
- 在分析Web社区搜索资源分散特点的基础上,运用Web抓取器、向量空间模型和相关性排序等技术设计了Web社区搜索引擎的体系结构,实现了一个Web社区搜索引擎系统——Chinalab Search。根据对系统的性能评估,系统满足Web社区的搜索要求,提高了在社区内查找信息的效率,为组织间的合作提供了方便。
- 刘务华罗铁坚王文杰
- 关键词:WEB社区搜索引擎信息获取SEARCH
- 文本聚类及其在Web社区搜索中的应用
- 随着Web的不断发展和数据量的增加,Web用户越来越依靠搜索引擎来检索信息。搜索引擎用户的行为分析表明不仅需要对结果进行排序,也需要为用户构造新查询提供帮助和提示。Web社区可以为组织之间的合作和交流提供一个环境,针对社...
- 刘务华
- 关键词:文本聚类搜索引擎信息获取文本挖掘WEB挖掘
- 文献传递
- 文本聚类算法的质量评价被引量:11
- 2006年
- 利用标准的分类测试集合进行聚类质量的量化评价,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比.实验结果分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量.
- 刘务华罗铁坚王文杰
- 关键词:文本聚类后缀树聚类K-MEANS聚类
- 文本聚类技术的有效性验证被引量:9
- 2007年
- 讨论了利用分类测试集进行聚类量化评价的标准。在此基础上选择k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。实验表明,STC聚类算法在处理文本时充分考虑了文本的特性,其聚类效果较好;基于Ant的聚类算法在聚类的划分时效果受参数输入的影响较大,其聚类结果与STC相比并不具有优势;在Ant聚类算法中引入文本特性后,可以提高文本聚类的效果。
- 刘务华罗铁坚王文杰
- 关键词:文本聚类后缀树聚类