国家自然科学基金(60435020)
- 作品数:87 被引量:1,578H指数:19
- 相关作者:王晓龙刘挺李生刘远超关毅更多>>
- 相关机构:哈尔滨工业大学北京大学复旦大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术电子电信生物学理学更多>>
- 中文名实体识别中的特征组合与特征融合的比较被引量:10
- 2005年
- 先分析了最大熵模型常用的特征线性组合方法中的权值偏置问题,然后提出了在线性组合之前,对特征进行融合,并根据融合特征和目标类别之间的互信息选择有效复合特征的方法。通过在包含2000个人名的语料库上的测试,表明特征融合能有效地提高名实体识别的精度和召回率。
- 赵健王晓龙关毅
- 关键词:最大熵模型
- 基于回归支持向量机的信息检索
- 从本质上看,信息检索应按照文档满足用户信息需求程度进行排序,因此当前以分类和排序策略为主流的研究方式存在与信息检索目标相关性较弱的缺点。本文尝试使用回归分析策略,以文档满足用户的信息需求程度作为回归分析的目标值,利用回归...
- 韩咏齐浩亮杨沐昀李生
- 关键词:信息检索支持向量机
- 文献传递
- 基于等价伪译词模型的无指导译文消歧研究被引量:3
- 2008年
- 该文提出了一种基于等价伪译词进行无指导译文消歧的方法。该方法利用源语言岐义词不同语义下目标语译文的单义同义词集合,定义并构造等价伪译词。利用等价伪译词从目标语语料中自动获取大量已标注语义的目标语实例。由这些实例得到的目标语语义知识,可直接形成该等价伪译词的语义分类器。利用Hownet可将含目标歧义词的英语实例映射成汉语词集合,然后利用这个语义分类器进行译文消歧。在国际标准语义评测集上进行的测试表明,该方法优于其余两种自动获取已标注语料的系统,且与Senseval-2 ELS上可比较的最好无指导系统的性能相当。
- 刘鹏远赵铁军杨沐昀李壮
- 关键词:词义消歧译文消歧目标语
- 通过全局核降低高斯核的局部风险与基于遗传算法的两阶段模型选择被引量:2
- 2007年
- 支持向量分类时,由于样本分布的不均匀性,单宽度的高斯核会在空间的稠密区域产生过学习现象,在稀疏区域产生欠学习现象,即存在局部风险.针对于此,构造了一个全局性次核来降低高斯核产生的局部风险.形成的混合核称为主次核.利用幂级数构造性地给出并证明了主次核的正定性条件,进一步提出了基于遗传算法的两阶段模型选择算法来优化主次核的参数.实验验证了主次核和模型选择算法的优越性.
- 常群王晓龙林沂蒙Daniel S.Yeung陈清才
- 关键词:支持向量机高斯核
- 基于双语语料库的短语复述实例获取研究
- 本文提出一种基于双语语料库的短语复述实例获取方法,尤其能够很好的抽取歧义短语的复述实例。该方法通过输入一个双语短语对约束短语的语义,利用词对齐的双语语料库,构造一个双向抽取模型从中抽取双语对的复述实例。双向抽取模型通过比...
- 李维刚刘挺李生
- 关键词:双语语料库
- 文献传递
- 基于无指导机器学习的全文词义自动标注方法被引量:2
- 2006年
- 为实现汉语全文词义自动标注,本文采用了一种新的基于无指导机器学习策略的词义标注方法.实验中建立了四个词义排歧模型,并对其测试结果进行了比较.其中实验效果最优的词义排歧模型融合了两种无指导的机器学习策略,并借助依存文法分析手段对上下文特征词进行选择.最终确定的词义标注方法可以使用大规模语料对模型进行训练,较好的解决了数据稀疏问题,并且该方法具有标注正确率高、扩展性能好等优点,适合大规模文本的词义标注工作.
- 卢志茂刘挺李生
- 关键词:词义标注依存文法
- 利用支持向量回归确定相关Web查询被引量:1
- 2006年
- 对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关W eb查询的新方法.对一个给定的W eb查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型,根据相关度的大小确定相关W eb查询.实验结果表明该方法具有较高的准确度.
- 王继民彭波孟涛
- 关键词:搜索引擎用户日志支持向量回归
- 多文档文摘中基于语义相似度的最大边缘相关技术研究
- 多文档自动文摘致力于从多篇文档中将全面、简洁的摘要性文档呈现给用户,提高用户获取信息的效率。本文提出了基于语句级语义相似度的最大边缘相关方法来选取文摘句,为生成高质量的文摘提供文摘单元支持。实验结果表明,与基于相关度大小...
- 刘寒磊关毅徐永东
- 关键词:多文档自动文摘MMR语义相似度
- 文献传递
- 信息检索中的聚类分析技术被引量:10
- 2006年
- 信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOWNET)中词的概念计算模型计算类别相关度, 将其作为聚类合并的依据。信息获取的仿真实验表明文档检索效率有较大提高。
- 刘远超王晓龙刘秉权钟彬彬
- 关键词:文档聚类关键词抽取知网
- 使用语法分析和统计方法构建问答系统的答案排序模型
- 本文描述了一种构建问答式检索系统中答案排序模型的新方法。该方法结合了基于密度方法的度量特征和外部知识库,并且引入了基于语法分析方法的语法关键路径的新特征,使用支持向量机回归模型训练评估函数。实验证明,引入了上述语法关键路...
- 李波邱锡鹏吴立德
- 关键词:支持向量机自然语言处理
- 文献传递