国家高技术研究发展计划(2006AA010108)
- 作品数:23 被引量:351H指数:10
- 相关作者:赵铁军刘群孙乐李生李文波更多>>
- 相关机构:哈尔滨工业大学中国科学院中国科学院软件研究所更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金福建省重点科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于浅层句法特征的评价对象抽取研究被引量:49
- 2011年
- 随着网络评论文本数量的快速增长,文本情感分析越来越受到研究者的广泛关注.句子级文本情感分析就是对主观性文本进行细粒度的挖掘,有重要的研究价值.评论句中的评价对象抽取是句子级情感分析要研究的关键问题之一.为了提高评价对象抽取的性能,本文提出在系统模型的训练过程中引入浅层句法信息和启发式位置信息,同时在不增加领域词典的情况下,有效提高系统的精确率.实验结果表明,将本文提出的特征引入到条件随机域模型和对比模型后,系统的各项指标均有所提高,并且条件随机域模型的结果优于对比模型.同时,将条件随机域模型的结果与2008年国内中文评测的最大值比较,其F值超过最大值5%.
- 徐冰赵铁军王山雨郑德权
- 关键词:文本情感分析评价对象抽取
- 树-串句法统计翻译模型的正向解码算法
- 2008年
- 针对树-串句法统计翻译模型提出了基于对数线性模型的正向解码算法.该解码算法直接对句法树进行操作,能够简单有效地利用句法信息.在对数线性模型中定义了翻译模型概率、语言模型概率和空译文罚分3个特征函数.采用集束搜索算法搜索假设空间,采用多栈存储假设,依据启发式策略进行假设打分.研究了假设的扩展方法,特别是树节点上不同操作对位置有效性的影响.在IWSLT2004数据集上进行了对比实验.实验结果表明正向解码算法译文的BLEU评分高于传统解码算法,说明正向解码算法能够克服传统解码算法的不足,有效利用句法结构信息,比传统解码算法更适合于树-串统计翻译模型.
- 薛永增李生赵铁军杨沐昀
- 关键词:自然语言处理统计机器翻译句法启发式算法
- 多分类器融合的文本分类技术研究
- 随着互联网信息及电子资源的急剧膨胀,文本分类技术成为信息组织与管理的有效手段。本文提出了一种多分类器融合的文本分类技术,通过引入可信度函数,选择出主分类器较难判决的文本,通过辅助分类器,对单一主分类器不易判决的文本通过多...
- 陈庆轩郑德权赵铁军
- 关键词:多分类器文本分类
- 文献传递
- 基于句法的统计机器翻译综述被引量:20
- 2008年
- 本文对基于句法的统计机器翻译进行了综述。按照模型所基于的语法不同,将基于句法的统计机器翻译分为两大类:基于形式化语法和基于语言学语法。对这两个不同类别,我们分别介绍它们代表性的工作,包括模型的构建、训练和解码器的设计等,并对比了各个模型的优点和缺点。最后我们对基于句法的统计机器翻译进行了总结,指出设计句法模型时要注意的问题,并对未来的发展趋势进行了预测。
- 熊德意刘群林守勋
- 关键词:人工智能机器翻译统计机器翻译依存语法
- 基于核方法的中文实体关系抽取研究被引量:22
- 2008年
- 命名实体关系抽取是信息抽取领域中的重要研究课题之一。该文探讨了核方法在中文关系抽取上的有效性问题,主要分为三部分:研究了在卷积树核中使用不同的语法树对关系抽取性能的影响;通过构造复合核检查了树核与平面核之间的互补效果;改进了最短路径依赖核,将核计算建立在原最短依赖路径的最长公共子序列上,以消除原始最短路径依赖核对依赖路径长度相同的过严要求。因为核方法开始被用于英文关系抽取时,F1值也只有40%左右,而我们在ACE2007标准语料集上的实验结果表明,只使用作用在语法树上的卷积核时,中文关系抽取的F1值达到了35%,可见卷积核方法对中文关系抽取也是有效的,同时实验也表明最短路径依赖核对中文关系抽取效果不明显。
- 黄瑞红孙乐冯元勇黄云平
- 关键词:计算机应用中文信息处理中文实体关系抽取核方法复合核
- 跨语言信息检索中的用户查询翻译方法研究
- 用户的查询翻译是跨语言信息检索的一个非常重要的任务,翻译结果的准确性直接影响检索结果的查准率和查全率。本文提出了三种方法以解决跨语言信息检索中查询翻译的歧义问题。其中,基于知网(HowNet)语义关系的译词选择模型,通过...
- 朱红垒郑德权赵铁军
- 关键词:跨语言信息检索查询翻译
- 文献传递
- 一种改进词语对齐的新方法
- 词语对齐是目前主流的统计机器翻译系统的基本模块,GIZA++是词语对齐最常用的工具,但是GIZA++的对齐结果仍然存在不足。本文从约束双语命名实体之间的对齐的角度出发,提出了一种改进词语对齐结果的方法:首先,识别双语命名...
- 罗维吉宗诚吕雅娟刘群
- 关键词:词语对齐统计机器翻译
- 文献传递
- 基于句法的统计机器翻译模型与方法被引量:16
- 2011年
- 该文总结了我们近几年来在基于句法的统计机器翻译方面所做的研究工作,特别是基于源语言句法的一系列统计机器翻译模型与方法,具体包括:基于最大熵括号转录语法的翻译模型,基于源语言短语结构树的树到串翻译模型及其相应的基于树的翻译方法,基于森林的翻译方法和句法分析与解码一体化翻译方法,基于源语言依存树的翻译模型。
- 刘群
- 关键词:统计机器翻译
- 以机器翻译技术为核心的多语信息处理研究被引量:2
- 2011年
- 该文介绍了哈尔滨工业大学教育部—微软语言语音重点实验室在多语信息处理方面的研究进展和成果。首先综述了国内外的研究现状,然后重点介绍在统计机器翻译、机器翻译应用、机器翻译评价、跨语言信息检索等方面的研究工作。
- 赵铁军曹海龙
- 关键词:机器翻译自然语言处理
- 基于短语相似度的统计机器翻译模型被引量:3
- 2009年
- 针对基于短语的统计机器翻译(SMT)模型中由于采用精确匹配策略导致的短语稀疏问题,提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时,对于训练语料库中未出现过的短语,通过计算源语言短语之间的相似度,采用模糊匹配策略从短语表中查找相似的实例短语,并根据实例短语为其构造翻译。与精确匹配策略相比,利用相似度进行模糊匹配增加了对短语表的利用程度,缓解了短语稀疏问题。实验表明,该模型能够明显地提高统计机器翻译的质量,效果超过了当前最好的短语系统'摩西(Moses)'。
- 何中军刘群林守勋
- 关键词:相似度