国家科技支撑计划(2006BAH03B02)
- 作品数:21 被引量:124H指数:5
- 相关作者:王惠临宗成庆吴琳张金柱章成志更多>>
- 相关机构:中国科学技术信息研究所北京万方数据股份有限公司中国科学院自动化研究所更多>>
- 发文基金:国家科技支撑计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学语言文字医药卫生更多>>
- 汉英统计翻译系统中未登录词的处理方法
- 在统计机器翻译系统的解码过程中,经常会出现训练语料中没有的“未登录词”,这些词的出现严重地影响了解码器的速度和整个系统的性能,为此,本文通过对未登录词现象及其同义词的分析,提出并实现了一种针对统计翻译系统中未登录词的处理...
- 周可艳宗成庆
- 关键词:统计机器翻译同义词
- 文献传递
- 基于Glue Semantics和DRT的自然语言理解系统的设计与实现
- 2010年
- 阐述自然语言理解的基本流程、相关技术,重点介绍Glue Semantics和DRT两个理论。设计开发基于Glue Semantics和DRT的语义计算系统平台,对平台的设计思想、具体实现和关键技术进行详细的介绍,并指出存在的一些问题。
- 丁志强王惠临
- 关键词:自然语言理解语义计算句法分析GLUESEMANTICSDRT
- 面向科技文献的跨语言信息检索系统模型研究被引量:1
- 2008年
- 目前大多数机器翻译和跨语言检索系统都是基于通用语料,对外文科技资料的翻译效果不理想,本文结合科技文献的加工方法,研究面向科技文献的跨语言信息检索系统的模型。首先对跨语言信息检索的概念和特点进行简单的概述,从3个角度介绍跨语言信息检索的研究方法,然后讨论构建跨语言信息检索系统的必要性,在此基础上设计出一个面向科技文献的跨语言信息检索系统模型以及主要功能结构。
- 吴琳
- 关键词:跨语言信息检索机器翻译本体
- 基于Web的专利双语语料自动获取研究及实现——以esp@cenet数据库为例被引量:9
- 2009年
- 针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法。该方法利用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库。
- 吴琳魏星霍翠婷
- 关键词:著录信息网页解析
- 基于科技文献资源的跨语言信息检索系统研究被引量:1
- 2009年
- 本文分析了跨语言信息检索的现状,介绍和描述跨语言信息检索的主要问题,并针对万方数据和NSTL的现有资源,构建出基于科技文献的跨语言信息检索原型系统,此原型系统通过字典查询得到检索词翻译,应用Google在线翻译进行标题、摘要翻译,并预留中国科学院自动化所提供的翻译引擎扩展。跨语言信息检索强调检索结果翻译的可读性,帮助用户理解基本大意,不刻意追求准确性,力求在应用过程中促进机器翻译技术的进步和发展,辅助科研。
- 张金柱
- 关键词:跨语言信息检索信息检索系统科技文献资源
- 基于规则的英语复句关联词自动标注技术被引量:1
- 2008年
- 引入有限状态转录机技术,参考Penn树库发展的思想,通过规则分析的方法综合利用词性标注结果、识别关联词、标点、词表映射及进行组块分析的方法将英语复句进行切分简化处理,最终结果以关联词及其论元的形式表示。
- 申春艳王惠临
- 关键词:论元关联词
- 中文信息处理60年被引量:22
- 2009年
- 本文首先简要回顾中国语文现代化走过的历程、取得的重要成果及其对中文信息处理的影响,然后对汉字信息处理和汉语信息处理的其他工作予以归纳阐述,并对这一领域的学术活动与国际交流情况做简要介绍,最后对中文信息处理所面临的挑战和未来发展的目标给予粗略的展望。
- 宗成庆曹右琦俞士汶
- 关键词:中文信息处理自然语言处理自然语言理解计算语言学
- 汉英双语命名实体识别与对齐的交互式方法被引量:16
- 2011年
- 基于汉英双语命名实体的识别与对齐特性,文中提出了一种双语命名实体交互式对齐模型,其中的修正对齐计算体现了汉英实体识别与对齐的密切结合:一方面,利用双语对齐信息帮助实体识别;另一方面,实体的对齐过程对实体的识别结果又具有一定的修正作用,两方面的结合实现了双语实体识别与对齐之间的交互式互助过程.实验证明,这种交互式对齐模型不仅显著提高了汉英实体对齐的性能(F值从74.4%提高到81.2%),而且有效地提高了汉英实体识别的正确率和召回率.
- 陈钰枫宗成庆苏克毅
- 关键词:双语对齐机器翻译
- XML纵览与其在自然语言处理领域中的应用研究被引量:1
- 2009年
- XML是在数字化、网络化环境中,可满足各行业信息和知识组织、处理及数据交换的基础技术。文章首先给出了XML之纵览,即XML的基础标准规范和应用技术;其次,以语料构建和翻译记忆等领域为例,研讨XML在自然语言处理(NLP)行业中的应用;最后,给出有关XML应用的结论。
- 李颖张金柱吴琳练霞
- 关键词:自然语言处理NLP语料翻译记忆
- 对话行为信息在口语翻译中的应用被引量:3
- 2010年
- 在口语翻译中,如何融入语义及语用信息一直是目前研究的难点之一。对话行为作为浅层话语结构描述的特征,近年来陆续应用于不同类型的翻译系统中。该文在介绍对话行为理论和口语标注语料的基础上,以基于短语的统计翻译系统为应用对象,提出了对话行为应用于翻译过程的三种方式。该方法通过对对话行为的自动分类,使训练语料—测试语料、开发集—测试集、源语言—目标语言的一致性得到提高,提高了翻译系统的性能,使最终的翻译结果可以更准确地反映源语言所要表达的对话意图。在汉英口语翻译评测数据上的实验证明,对话行为信息的加入使翻译系统的性能得到了有效的提高。
- 周可艳宗成庆
- 关键词:口语翻译