王斌
- 作品数:133 被引量:1,080H指数:18
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学理学电气工程更多>>
- 用于对倒排索引进行压缩的文档序号重排方法及其系统
- 本发明公开了用于对倒排索引进行压缩的文档序号重排方法及其系统,该方法包括:步骤1,对已经分配好文档序号的文档进行词语划分得到词项,对所述词项按照其在所述文档中的出现频率进行排列,得到第一顺序的词项;步骤2,利用所述第一顺...
- 史亮王斌卫冰洁张帅张冠元
- 文献传递
- 基于日志分析的搜索引擎查询结果缓存研究
- 缓存是有效减少响应时间和系统负载的关键技术,是搜索引擎系统结构研究的重要领域之一。通过对搜狗搜索引擎在近1个月内约1 500万条用户查询日志进行分析和研究,针对查询结果缓存,从查询局部性、缓存策略、缓存容量、工作负载周期...
- 马宏远王斌
- 关键词:信息检索搜索引擎查询日志缓存
- Web超链挖掘:中国境内Web图结构研究被引量:8
- 2005年
- 以网站作为Web图的顶点,以网站之间链接为有向边,研究了中国境内Web图的拓扑特点和宏观结构。试验表明:网站的入度和出度分布同样服从幂级数定律(PowerLaw);境内Web图的连通性明显高于全球的Web图,其最大的强连通分量中的网站数超过50%;在境内Web中,如果两个网站之间存在一条有向路径,则从一个网站漫游到另外一个网站,平均只需点击7.1次,最多只需点击29次。
- 丁国栋王斌白硕
- 关键词:网站链接关系宽度优先搜索
- 基于加权SimRank的中文查询推荐研究被引量:16
- 2010年
- 查询推荐是搜索引擎系统中的一项重要技术,其通过推荐更合适的查询以提高用户的搜索体验。现有方法能够找到直接通过某种属性关联的相似查询,却忽略了具有间接关联的语义相关查询。该文将用户查询及查询间直接联系建模为查询关系图,并在图结构相似度算法SimRank的基础上提出了加权SimRank(简称WSimRank)用于查询推荐。WSimRank综合考虑了查询关系图的全局信息,因而能挖掘出查询间的间接关联和语义关系。然而,WSimRank复杂度太高而难以实用,该文将WSimRank转换为一个状态层次图的遍历和计算过程,进而采用动态规划、剪枝等策略对其进行优化从而可以实际应用。在大规模真实Web搜索日志上的实验表明,WSimRank在各项评价指标上均优于SimRank和传统查询推荐方法,其MAP指标接近0.9。
- 李亚楠许晟王斌
- 关键词:计算机应用中文信息处理搜索引擎查询推荐SIMRANK
- 汉英双语库词汇对齐研究
- 的双语语料库能够为许多的自然语言应用提供重要的基础,其中,对于许多基于双语语料库的应用来说,双语语料库必须做到词汇级别的对齐,该文考虑在句子对齐基础上的汉英词汇自动对齐。该文依次提出了基于双语词典、基于语义相似、基于位置...
- 王斌刘群张祥
- 关键词:自然语言处理双语语料库
- 一种分类目录自动构建方法及相关系统
- 本发明提供一种分类目录自动构建方法,包括:从现有数据中查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;计算所述概念术语集合中各个概念术语间的相关度;根据所述概念术语间的相关度,对所述概念术语集合...
- 李亚楠王斌李锦涛李鹏
- 文献传递
- 一种数字信息推荐预测模型的训练方法和系统
- 本发明提供一种数字信息推荐预测模型的训练方法和系统,该方法包括:1)接收打分数据;2)确定数字信息的不同类别,每个类别中包括多个项目,其中所述类别之间存在关联关系;3)基于所述关联关系建立所述模型并训练获得所述模型,其中...
- 鲁凯王斌史亮李文娜李锐徐飞
- 文献传递
- TREC2002中的WEB信息检索被引量:2
- 2003年
- 文本检索会议(TextREtrievalConference,TREC)是目前国际上信息检索领域最重要的学术交流与系统评测活动。会议为参加者提供标准的数据集合、评测问题和标准答案,从而使参加者以共同的标准进行系统运行和评测。作者代表中国科学院参加了文本检索会议的WEB信息检索任务。在TREC2002中,作者发现了适合不同数据集合的较高性能的内容检索算法,并综合考虑了文本内容、链接文字、文档结构等因素对WEB信息检索效果的影响,取得了较好的成绩。该方法在两届会议的不同任务中均表现了较高的性能。
- 杨志峰刘悦杨哲王斌程学旗
- 关键词:信息检索WEBTRACK评测
- 文本检索的统计语言建模方法综述被引量:24
- 2006年
- 统计语言建模技术(statisticallanguagemodeling,SLM)已逐渐成为当前语言信息处理的主流技术之一·近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间·对基于SLM的文本检索方法(SLMTR)进行了综述,重点论述SLMTR的主要方法和关键技术·首先对查询似然检索模型进行形式化的描述;然后详细论述语言模型的估计和数据平滑问题;并讨论了平滑对检索性能的影响;之后简要介绍了对查询似然模型的一些主要的扩展和改进工作;最后的总结部分讨论了SLMTR所面临的一些挑战·
- 丁国栋白硕王斌
- 关键词:信息检索语言模型
- 基于双字耦合度的中文分词交叉歧义处理方法
- 本文提出了一种利用双字耦合度和 t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和 t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和 t-测试差的结合要...
- 王思力王斌
- 关键词:中文分词
- 文献传递