张黎莎
- 作品数:5 被引量:22H指数:3
- 供职机构:卡迪夫大学更多>>
- 发文基金:国家自然科学基金广东省自然科学基金广东省高等学校自然科学研究重点项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 个性化跨语言学术搜索技术研究被引量:4
- 2011年
- 学术搜索引擎是一种行业化的搜索引擎,但因其缺乏个性化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用。本文使用Google翻译,研究基于机器翻译的中、英、俄、法和西班牙等五个语种跨语言学术检索。在跨语言学术搜索的基础上研究个性化检索技术,提出一种基于聚类的个性化信息检索方法:通过观察用户对搜索结果聚类的点击行为,生成并更新用户实时兴趣模型,采用余弦夹角公式计算用户实时兴趣模型与搜索返回结果的相似度,根据相似度大小,为用户提供个性化重排序的搜索返回结果。实验结果证明了提出方法的有效性。
- 庞观松张黎莎蒋盛益
- 关键词:跨语言信息检索个性化信息检索学术搜索
- 跨语言智能学术搜索系统设计与实现被引量:5
- 2011年
- 学术搜索是一种行业化的搜索引擎,因其缺乏个性化、智能化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用。本研究跨语言智能学术搜索系统的设计与实现,旨在让用户可以在尽可能短的时间内找到所需学术资源。系统的几个关键技术包括:研究混合语种文本的分词技术;研究基于机器翻译的跨语言信息检索;研究搜索结果聚类算法在不同语言文本上的性能差异问题;研究基于聚类的个性化信息检索方法以及交互式查询扩展技术。实验测试结果表明:系统具有较好的扩展性,能为用户提供良好的学术检索服务。
- 庞观松张黎莎蒋盛益
- 关键词:跨语言信息检索搜索结果聚类个性化信息检索查询扩展学术搜索
- Web搜索结果多层聚类方法研究被引量:1
- 2011年
- 为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。
- 庞观松蒋盛益张黎莎区雄发赖旭明
- 关键词:文本聚类加权函数
- 一种基于名词短语的检索结果多层聚类方法被引量:3
- 2010年
- 对检索结果聚类可以方便用户快速浏览搜索引擎返回结果。为了提取主题表达能力和可读性强的类别标签,获取高质量的聚类结果,提出基于名词短语的检索结果多层聚类方法:提取名词短语作为候选类别标签,根据候选类别标签分布情况生成基础类,再使用具有线性时间复杂度的一趟聚类算法对基础类进行多层聚类。与基于命名实体的方法、STC和Lingo算法的对比实验表明:提出方法在类别标签的可读性、有效性以及聚类性能上都优于以上3种方法。
- 庞观松张黎莎蒋盛益邝丽敏吴美玲
- 关键词:信息检索检索结果聚类文本聚类
- Chameleon算法的改进被引量:11
- 2010年
- 结合Chameleon算法可以发现高质量的任意形状、大小和密度的自然簇及一趟聚类算法快速高效的特点,研究可以处理混合属性的高效聚类算法.首先简单改进Chameleon算法,使之可以处理含分类属性的数据;进而提出一种两阶段聚类算法.第一阶段使用一趟聚类算法对数据集进行初始划分,第二阶段利用改进的Chameleon算法归并初始划分而得到最终聚类.在真实数据集和人造数据集上的实验结果表明,提出的两阶段聚类算法是有效可行的.
- 蒋盛益庞观松张黎莎