张大鲲
- 作品数:12 被引量:171H指数:4
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于非连续短语的统计翻译模型
- 本文给出了基于非连续短语的统计翻译方法,翻译的基本单元从连续短语扩展到带有间隔的非连续短语,这种方法可以更好地解决句子中词语翻译时的上下文依赖问题.在形式上,非连续短语方法和层次型短语方法相似,不同之处在于前者只允许包含...
- 张大鲲张玮董静
- 关键词:统计机器翻译
- 文献传递
- ISCAS机器翻译和系统融合评测系统介绍
- 本文给出了参加第四届全国机器翻译研讨会(CWMT2008)评测的系统介绍,包括基于短语的统计机器翻译模型,和句子级融合的系统融合模型。翻译系统首先对训练语料进行预处理,构造了一个基本系统,然后利用大小写敏感的3元语言模型...
- 张大鲲孙乐
- 文献传递
- 基于单字提示特征的中文命名实体识别快速算法被引量:30
- 2008年
- 近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。
- 冯元勇孙乐李文波张大鲲
- 关键词:计算机应用中文信息处理中文命名实体识别条件随机场自然语言处理
- 基于非连续短语的统计翻译模型研究被引量:5
- 2007年
- 目前统计机器翻译的主流方法仍然是基于短语的翻译模型。然而,该模型并没有考虑对非连续短语的处理。本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决词语翻译时的上下文依赖问题。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,在效率提高的情况下,非连续短语模型可以取得与层次型短语模型相当的翻译结果。
- 张大鲲张玮冯元勇孙乐
- 关键词:人工智能机器翻译统计机器翻译
- 利用压平的双语句法树进行短语重排序(英文)
- 本文提出了一种新的利用压平的双语句法树进行短语重排序的方法。首先,句子结构表示成双语句法树的形式,然后抽取带有方向属性的短语对。短语对的这种方向属性可以帮助确定短语重排序时短语的方向(是否需要调序),对于在训练数据中没有...
- 张大鲲孙乐李文波
- 关键词:句法树SMT
- 文献传递
- 基于非连续短语的统计翻译模型
- 本文给出了基于非连续短语的统计翻译方法,翻译的基本单元从连续短语扩展到带有间隔的非连续短语,这种方法可以更好地解决句子中词语翻译时的上下文依赖问题。在形式上,非连续短语方法和层次型短语方法相似,不同之处在于前者只允许包含...
- 张大鲲张玮董静
- 关键词:统计机器翻译
- 一种机器翻译方法
- 本发明公开了一种机器翻译方法,属于自然语言处理技术领域。本发明的方法为:1)将词对齐的双语句子转换为双语句法树结构;2)在双语句法树的每一层抽取带有结构属性的短语,计算短语翻译概率组成短语翻译表;3)根据短语翻译表,利用...
- 张大鲲孙乐李文波
- 文献传递
- ISCAS机器翻译和系统融合评测系统介绍
- 本文给出了参加第五届全国机器翻译研讨会(CWMT2009)评测的系统介绍,包括基于短语的统计机器翻译模型以及两个系统融合模型。翻译系统首先对训练语料进行预处理,构造了一个基本系统,然后利用大小写敏感的4元语言模型恢复英文...
- 张大鲲张振中孙乐
- 关键词:机器翻译语言模型
- 文献传递
- 基于小规模尾字特征的中文命名实体识别研究被引量:32
- 2008年
- 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.
- 冯元勇孙乐张大鲲李文波
- 关键词:中文命名实体识别条件随机场自然语言处理
- 基于单字提示特征的中文命名实体识别快速算法
- 近年水条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链 (linear-chain)模型一般采用 L-BFGS 参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速 CRF 算...
- 冯元勇孙乐张大鲲李文波
- 关键词:中文命名实体识别条件随机场自然语言处理
- 文献传递