国家高技术研究发展计划(2002AA117010-02)
- 作品数:3 被引量:19H指数:2
- 相关作者:张孝飞陈肇雄黄河燕王建德张克亮更多>>
- 相关机构:中国科学院南京理工大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 多策略机器翻译系统IHSMTS中实例模式泛化匹配算法被引量:1
- 2005年
- 基于精确匹配的EBMT,由于翻译覆盖率过低,导致其难以大规模实际应用。本文提出一种实例模式泛化匹配算法,试图改善EBMT的翻译覆盖率:以输入的待翻译句子为目标导向,对候选翻译实例有针对性地进行实时泛化,使得算法既能满足实时文档翻译对速度的要求,又能充分利用系统使用过程中用户新添加和修改的翻译知识,从而总体上提高了系统的翻译覆盖率和翻译质量。实验结果表明,在语料规模为16万句对的情况下,系统翻译覆盖率达到了75%左右,充分说明了本文算法的有效性。
- 张孝飞陈肇雄黄河燕胡春玲
- 关键词:人工智能机器翻译
- 基于锚点词对的双语词对齐算法被引量:13
- 2006年
- 双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率达77.3%,F值达84.2%,基本上满足了有关应用的实际要求.
- 张孝飞陈肇雄黄河燕王建德
- 关键词:自然语言处理语料
- 大规模句子相似度计算方法被引量:6
- 2006年
- 如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达96%。准确率达90%,充分说明了本文算法的有效性。
- 黄河燕陈肇雄张孝飞张克亮
- 关键词:句子相似度
- 基于有限资源的双语词对齐算法
- 双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及不同语言间的固有差异和翻译习惯等诸多问题。本文在词法分析的基础上,利用有限的语言资源(主要...
- 张孝飞陈肇雄黄河燕张亮
- 关键词:自然语言处理语料
- 文献传递