吕碧波
- 作品数:3 被引量:67H指数:2
- 供职机构:中国科学院自动化研究所更多>>
- 发文基金:北京市自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于相关文档池建模的查询扩展被引量:12
- 2006年
- 在信息检索领域,相关反馈是提高检索性能的有效方法之一。所谓相关反馈,指用户按照一定策略从查找到的相关文档中选择一些和主题相关的词进行查询扩展的技术。本文介绍了概率模型和向量空间模型下的常用查询扩展方法,并提出了一种基于语言模型的相关反馈方法,该方法同时考虑了扩展词应该具备的两个特征,即相关性和覆盖性。在TREC测试集上对这些算法进行了比较,结果表明这种新算法在平均准确率上比传统方法有所提高。
- 吕碧波赵军
- 关键词:计算机应用中文信息处理信息检索查询扩展
- 863信息检索评测——自动化所
- 2006年
- 本文主要介绍我们参加863信息检索评测的情况。我们的信息检索系统采用基于语言模型的信息检索方法,将命名实体技术运用在查询向量的构造中,利用基于链接分析的PageRank算法计算文档的先验概率,并在自动查询中采用了相关反馈技术。文章还介绍了系统构成的软硬件环境及相关评测数据,给出了对待自动查询和人工查询的不同策略,并通过实验结果的比较,分析了中文信息检索中比较有效的方法,最后给出了系统存在的不足以厦今后改进的方向。
- 吕碧波王根赵军
- 关键词:信息检索语言模型
- 面向商务信息抽取的产品命名实体识别研究被引量:55
- 2006年
- 市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hid-den Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。
- 刘非凡赵军吕碧波徐波于浩夏迎炬
- 关键词:计算机应用中文信息处理