您的位置: 专家智库 > >

北京市自然科学基金(4082030)

作品数:5 被引量:66H指数:5
相关作者:王斌李亚楠李锦涛李鹏张磊更多>>
相关机构:中国科学院中国科学院研究生院更多>>
发文基金:北京市自然科学基金国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇期刊文章
  • 4篇会议论文

领域

  • 8篇自动化与计算...
  • 1篇文化科学

主题

  • 6篇信息检索
  • 6篇中文
  • 6篇查询
  • 5篇搜索
  • 4篇日志
  • 4篇查询推荐
  • 3篇信息处理
  • 3篇引擎
  • 3篇搜索引擎
  • 3篇索引
  • 3篇中文信息
  • 3篇中文信息处理
  • 3篇计算机
  • 3篇计算机应用
  • 2篇数据挖掘
  • 2篇搜索日志
  • 2篇中文网页
  • 2篇网络信息
  • 2篇网络信息检索
  • 2篇网页

机构

  • 9篇中国科学院
  • 3篇中国科学院研...
  • 1篇北京大学

作者

  • 6篇王斌
  • 5篇李亚楠
  • 4篇张磊
  • 3篇李鹏
  • 2篇李锦涛
  • 2篇蒋在帆
  • 2篇靖红芳
  • 2篇许晟
  • 1篇吴丽辉
  • 1篇王斌
  • 1篇李鹏
  • 1篇李亚楠

传媒

  • 3篇中文信息学报
  • 1篇哈尔滨工业大...
  • 1篇软件学报
  • 1篇第五届全国信...

年份

  • 2篇2011
  • 2篇2010
  • 3篇2009
  • 2篇2008
5 条 记 录,以下是 1-9
排序方式:
网页搜索引擎查询日志的Session划分研究被引量:18
2009年
搜索引擎查询日志中的session(以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论:(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利用多种属性的决策树方法可以得到比较理想的结果,以session为单位进行评价,F值达到了78.6%。
张磊李亚楠王斌李鹏蒋在帆
关键词:计算机应用中文信息处理网络信息检索查询日志
给互联网建立索引:基于词关系网络的智能查询推荐被引量:8
2011年
搜索引擎用户经常提交意图模糊的查询,从而导致搜索失败.为此,提出一种检索交互方式——智能查询推荐,它可以自动辨别查询是否语义明确,并对模糊查询建立体现其不同语义概念的分类目录,这个目录将帮助用户快速定位到合适查询.为了实现智能查询推荐,提出了一种基于自然语言小世界性质的查询语义识别算法——TECH(term concept hunting).TECH综合利用了物理学领域社区发现知识和计算机领域信息检索技术,给出了一种可扩展的算法框架.实验结果表明,与传统查询推荐方式相比,用户更喜欢智能查询推荐;TECH能够有效地辨识模糊查询的不同语义概念,并统计显著优于3个知名的对比系统.
李亚楠王斌李锦涛李鹏
关键词:信息检索查询推荐小世界网络
基于加权SimRank的中文查询推荐研究被引量:16
2010年
查询推荐是搜索引擎系统中的一项重要技术,其通过推荐更合适的查询以提高用户的搜索体验。现有方法能够找到直接通过某种属性关联的相似查询,却忽略了具有间接关联的语义相关查询。该文将用户查询及查询间直接联系建模为查询关系图,并在图结构相似度算法SimRank的基础上提出了加权SimRank(简称WSimRank)用于查询推荐。WSimRank综合考虑了查询关系图的全局信息,因而能挖掘出查询间的间接关联和语义关系。然而,WSimRank复杂度太高而难以实用,该文将WSimRank转换为一个状态层次图的遍历和计算过程,进而采用动态规划、剪枝等策略对其进行优化从而可以实际应用。在大规模真实Web搜索日志上的实验表明,WSimRank在各项评价指标上均优于SimRank和传统查询推荐方法,其MAP指标接近0.9。
李亚楠许晟王斌
关键词:计算机应用中文信息处理搜索引擎查询推荐SIMRANK
基于类别分布的特征选择框架
极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法。目前已有很多种特征选择方法,但据我们所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果。本文依据特征在类别间的分布特点提出了基于类别分...
靖红芳王斌杨雅辉
文献传递
搜索引擎查询推荐技术综述被引量:30
2010年
查询推荐技术,其用于找出与初始查询或关键词相关的其他查询或关键词,被广泛用于搜索引擎和广告检索系统中。作为当今搜索引擎的必备技术之一,查询推荐技术研究正受到越来越多的关注,近几年出现了很多验证查询推荐可用性及改进其算法的研究工作。为此,该文对查询推荐的发展过程、技术方法、评价体系等方面进行了归纳和总结,分析了查询推荐面临的挑战并讨论了现有解决方法及未来研究思路,希望能对相关研究人员有所帮助。
李亚楠王斌李锦涛
关键词:计算机应用中文信息处理查询推荐信息检索
中文网页搜索日志中的特殊命名实体挖掘
特殊命名实体是指字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名以及人名等等。在以娱乐为主的中文搜索中,这些命名实体占据重要地位,对它们进行挖掘不仅能够形成一种重要的数据资源,给互...
张磊王斌靖红芳吴丽辉
关键词:数据挖掘信息检索
文献传递
网页搜索引擎查询日志的session划分研究
搜索引擎查询日志中的Session(以下简称Session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于sess...
张磊李亚楠王斌李鹏蒋在帆
关键词:网络信息检索查询日志
文献传递
基于加权SimRank的中文查询推荐研究
查询推荐是搜索引擎系统中的一项重要技术,其通过推荐更合适的查询以提高用户的搜索体验。现有方法能够找到直接通过某种属性关联的相似查询,却忽略了具有间接关联的语义相关查询。本文将用户查询及查询间直接联系建模为查询关系图,并在...
许晟李亚楠王斌吴丽辉
关键词:搜索引擎查询推荐SIMRANK
文献传递
中文网页搜索日志中的特殊命名实体挖掘被引量:5
2011年
利用少量具有类别信息的种子词,结合特征选择技术来提取每个类别的特征信息;再利用这些特征信息,结合文本分类等数据挖掘技术来提取特殊命名实体.过程中只有构造种子词的环节需要人工辅助,其他环节均实现自动处理.实验证明,该系统和方法能够从查询日志中挖掘出高质量的命名实体列表,6个类别上识别结果的平均P@500达到了77%.系统的自动化程度和识别的效果均达到实用的要求.
张磊王斌靖红芳吴丽辉
关键词:数据挖掘信息检索
共1页<1>
聚类工具0