公共文化服务平台

基于加权SimRank的中文查询推荐研究被引量：16: 2010年; 查询推荐是搜索引擎系统中的一项重要技术,其通过推荐更合适的查询以提高用户的搜索体验。现有方法能够找到直接通过某种属性关联的相似查询,却忽略了具有间接关联的语义相关查询。该文将用户查询及查询间直接联系建模为查询关系图,并在图结构相似度算法SimRank的基础上提出了加权SimRank(简称WSimRank)用于查询推荐。WSimRank综合考虑了查询关系图的全局信息,因而能挖掘出查询间的间接关联和语义关系。然而,WSimRank复杂度太高而难以实用,该文将WSimRank转换为一个状态层次图的遍历和计算过程,进而采用动态规划、剪枝等策略对其进行优化从而可以实际应用。在大规模真实Web搜索日志上的实验表明,WSimRank在各项评价指标上均优于SimRank和传统查询推荐方法,其MAP指标接近0.9。; 李亚楠许晟王斌; 关键词：计算机应用中文信息处理搜索引擎查询推荐 SIMRANK

网页搜索引擎查询日志的Session划分研究被引量：18: 2009年; 搜索引擎查询日志中的session(以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论:(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利用多种属性的决策树方法可以得到比较理想的结果,以session为单位进行评价,F值达到了78.6%。; 张磊李亚楠王斌李鹏蒋在帆; 关键词：计算机应用中文信息处理网络信息检索查询日志

基于双字耦合度的中文分词交叉歧义处理方法: 本文提出了一种利用双字耦合度和 t-测试差解决中文分词中交叉歧义的方法：首先利用词典找出所有的交叉歧义,然后用双字耦合度和 t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和 t-测试差的结合要...; 王思力王斌; 关键词：中文分词; 文献传递

知识增益：文本分类中一种新的特征选择方法被引量：6: 2008年; 特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论。本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能;; 徐燕王斌李锦涛孙春明; 关键词：计算机应用中文信息处理文本分类粗糙集信息检索

基于类别分布的特征选择框架: 极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法。目前已有很多种特征选择方法,但据我们所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果。本文依据特征在类别间的分布特点提出了基于类别分...; 靖红芳王斌杨雅辉; 文献传递

文档检索中句法信息的有效利用研究被引量：6: 2008年; 利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法:一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较:在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。; 丁凡王斌白硕刘宜轩李亚楠; 关键词：计算机应用中文信息处理信息检索句法分析

Web检索查询意图分类技术综述被引量：16: 2008年; 查询分类是近年来信息检索领域的研究热点,并且在很多领域得到了广泛地关注。主要讨论根据查询的意图进行分类的研究工作,从查询分类的诞生背景、关键技术、所使用的分类方法和评价方法方面进行综述评论,提出了查询意图分类面临的问题和挑战。认为缺乏权威的评测标准、在大规模数据集上的未经全面测试的性能、如何准确地获取查询的特征以及如何证明分类体系的完备性和独立性是目前查询意图分类研究的关键问题。; 张森王斌; 关键词：计算机应用中文信息处理数据集特征提取

文本分类中特征选择的约束研究被引量：33: 2008年; 特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的.; 徐燕李锦涛王斌孙春明张森; 关键词：文本分类信息检索信息增益互信息

知识增益：文本分类中一种新的特征选择方法: 特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。本文基于粗糙集理论...; 徐燕王斌李锦涛孙春明; 关键词：文本分类粗糙集信息检索; 文献传递

网页搜索引擎查询日志的session划分研究: 搜索引擎查询日志中的Session(以下简称Session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于sess...; 张磊李亚楠王斌李鹏蒋在帆; 关键词：网络信息检索查询日志; 文献传递

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60603094)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(60603094)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈