国家高技术研究发展计划(2006AA01Z194) 作品数:7 被引量:23 H指数:3 相关作者: 徐波 魏玮 杜金华 宗成庆 刘文举 更多>> 相关机构: 中国科学院自动化研究所 河南理工大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于分层语块分析的统计翻译研究 被引量:8 2007年 本文描述了一个基于分层语块分析的统计翻译模型。该模型在形式上不仅符合同步上下文无关文法,而且融合了基于条件随机场的英文语块分析知识,因此基于分层语块分析的统计翻译模型做到了将句法翻译模型和短语翻译模型有效地结合。该系统的解码算法改进了线图分析的CKY算法,融入了线性的N-gram语言模型。目前,本文主要针对中文-英文的口语翻译进行了一系列实验,并以国际口语评测IWSLT(International Workshopon Spoken Language Translation)为标准,在2005年的评测测试集上,BLEU和NIST得分均比统计短语翻译系统有所提高。 魏玮 杜金华 徐波关键词:人工智能 机器翻译 条件随机场 基于“松弛尺度”的短语翻译对抽取方法 被引量:6 2007年 短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于"松弛尺度"的短语抽取方法,对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松"完全相容"的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比Och的方法有明显的改善和提高。 何彦青 周玉 宗成庆 王霞关键词:人工智能 机器翻译 统计机器翻译 基于混淆网络解码的机器翻译多系统融合 被引量:5 2008年 在对当前几种较流行的统计机器翻译多系统融合方法分析的基础上,提出了一种改进的多系统融合框架,该框架集成了最小贝叶斯风险解码和多特征混淆网络解码两种技术。融合过程如下:(1)从多个翻译系统输出的-best结果中,利用最小贝叶斯风险解码器选择一个风险最小的假设作为对齐参考;(2)将其余的-best假设结果与该参考对齐,从而构建混淆网络。多特征混淆网络基于对数线性模型,引入了更多有效的知识源参与最优路径选择,融合后的BLEU得分比融合前最好的单系统BLEU得分提高了2.19%。在对齐方法上,我们提出了一种改进的翻译错误率(Translation Error Rate,TER)准则——GIZA-TER准则,该准则可以对CN网络进行更有效的短语调序。实验中的显著性检验证明了本文方法的有效性。 杜金华 魏玮 徐波关键词:人工智能 机器翻译 基于“松弛尺度”的短语翻译对抽取方法 短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的 Och 提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于“松弛尺度”的短语抽取方法, 对不能完全相容的短语对... 何彦青 周玉 宗成庆关键词:统计机器翻译 文献传递 基于人机交互的统计翻译方法 基于短语的统计翻译模型是目前机器翻译的重要研究方向。但是,由于在解码时采用短语精确匹配的策略,造成了严重的数据稀疏问题,短语表中的大量短语无法得到充分利用。为此,我们提出了基于人机交互的统计翻译方法。对于未登录短语,首先... 刘鹏 宗成庆关键词:机器翻译 人机交互 文献传递 基于多模型融合的人名翻译系统 被引量:2 2009年 该文提出了一种基于加权有限状态转化器(WFST)的多模型融合人名翻译框架。该框架以两个基于字符的转换模型和两个基于发音的转换模型为核心,通过加权有限状态转换器将多模型进行融合实现对人名的翻译。与单个模型相比,该文提出的方法的优势在于通过从各种信息源得到的数据价值的最大化。实验结果表明,基于多模型融合方法的人名翻译的错误率比单一模型的人名翻译的错误率降低了7.14%。 庞薇 徐波关键词:计算机应用 中文信息处理 音译 基于分层语块分析的统计翻译研究 本文描述了一个基于分层语块分析的统计翻译模型。该模型在形式上不仅符合同步上下文无关文法,而且融合了基于条件随机场的英文语块分析知识。因此基于分层语块分析的统计翻译模型做到了将句法翻译模型和短语翻译模型有效地结合。该系统的... 魏玮 杜金华 徐波关键词:条件随机场 文献传递 汉英统计翻译系统中未登录词的处理方法 在统计机器翻译系统的解码过程中,经常会出现训练语料中没有的“未登录词”,这些词的出现严重地影响了解码器的速度和整个系统的性能,为此,本文通过对未登录词现象及其同义词的分析,提出并实现了一种针对统计翻译系统中未登录词的处理... 周可艳 宗成庆关键词:统计机器翻译 同义词 文献传递 一种改进的单声道混合语音分离方法 2009年 在回顾了基于语音客观质量评估和计算听觉场景分析的单声道混合语音分离方法的基础上,针对该方法所采用的ITU-TP.563语音客观质量评估标准存在的使用限制以及计算量大的缺点,提出了一种采用基于时域包络表示的语音客观质量评估算法来替代P.563算法的单声道混合语音分离方法,该方法在几乎不降低原方法分离性能的前提下,大大节约了算法运行所需的时间和资源消耗。 李鹏 关勇 刘文举 徐波关键词:语音分离 计算听觉场景分析 信噪比 人机互助的交互式口语翻译方法 被引量:1 2009年 基于短语的统计翻译模型是目前机器翻译领域广泛使用的模型之一。但是,由于在解码时采用短语精确匹配的策略,造成了严重的数据稀疏问题,短语表中的大量短语无法得到充分利用。为此,该文提出了人机互助的交互式翻译方法。对于翻译短语表中找不到的短语,首先通过模糊匹配的方法,在短语表中寻找与其相似的短语。然后利用组合分类器,判断哪些相似短语可能提高句子的翻译质量。最后,通过人机交互的方法,选择可能提高翻译质量且保持原句语义的短语。在口语语料上的实验结果证明,这种方法可以有效地提高翻译系统的译文质量。 刘鹏 宗成庆关键词:人工智能 机器翻译 口语翻译 人机交互