中国科学院计算机语言信息工程研究中心 作品数:105 被引量:1,160 H指数:17 相关作者: 陈肇雄 张孝飞 董振东 王建德 郝长伶 更多>> 相关机构: 南京理工大学计算机科学与技术学院 南京理工大学计算机科学与技术学院计算机系统理论与技术系 中国科学技术大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家杰出青年科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 电子电信 文化科学 更多>>
基于结构分析与计算的问答系统问题分类 问题分类是问答系统技术处理的基础与核心,它决定答案抽取的范围和方法,进而影响整个系统的性能.通过对比分析问题分类与文本分类的异同以及问句内部结构与问题类型之间的关系,提出了一种新的基于贝叶斯理论的问题分类计算模型.通过对... 张亮 陈肇雄 黄河燕关键词:问答系统 贝叶斯模型 文献传递 基于语义相似度并运用语言学知识进行双语语句词对齐 被引量:8 2002年 This paper claries the definition of alignment from the viewpoint of linguistic similarity. Many alignment algorithms have been proposed with very high precision. But the languages belong to occidental family. We propose a new method for alignment between languages that do not belong to the same language family. On the contrary to most of the previously proposed methods that rely heavily on statistics, our method attempts to use linguistic knowledge to overcome the problems of statistical model. Experimental results confirm that the algorithm can align over 85 % of word pairs while maintaining a comparably high precision rate, even when a small corpus is used in training. 晋薇 黄河燕 夏云庆关键词:机器翻译 语言学知识 语义相似度 计算机 高速信息网中关键基础问题 周炯槃 冯重熙 顾冠群 樊昌信 雷振明 吴伟陵 林金桐 李承恕 廖建新 韦岗 晏蒲柳 黄河燕 该课题为国家自然科学基金重大项目(69896240)。项目由8个单位共同承担,分别完成9个子课题,其任务是在中国自己研制的ATM科学实验网的网络平台基础上进一步扩大、完善网络平台功能、突破网络应用的若干瓶颈、研究并解决高...关键词:关键词:高速信息网 移动通信 网络平台 词性标注中生词处理算法研究 被引量:22 2003年 词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。 张孝飞 陈肇雄 黄河燕 蔡智关键词:中文信息处理 自然语言理解 隐马尔科夫模型 语料库 基于ontology的智能检索技术研究 被引量:5 2005年 介绍ontology的概念模型、明确性、形式化、共享性等属性特征,阐述面向信息检索的ontology的层次结构(即顶层on- tology、领域ontology、任务ontology和应用ontology)及其相互关系,研究分析基于ontology的智能信息检索系统的运行机制和系统体系的构建,并以实例说明ontology在深层次检索中的优势。 张亮 陈肇雄 黄河燕关键词:ONTOLOGY 智能信息检索 语义 图像编码的多分辨率分类矢量量化算法 被引量:5 1999年 本文结合小波多级变换后不同方向、不同尺度的系数相关性,提出了一种多分辨率的分类矢量量化方案,对由不同分辨率水平、不同方向的小波系数组成的矢量块进行分类量化编码,并设计了相应的性能良好的分类器,给出了不同条件下的实验结果和数据,从而证明了该编码方案不但提高了图像的质量,同时计算复杂度也有一定的降低. 胡春玲 马常楼 沈昌祥关键词:小波变换 多分辨率 图像编码 一种基于HMM的词性标注算法(英文) 词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有着很大的难度。文章通过将生词的词性标注问题转化为求解词汇发射概率,提出了一种基于隐马尔科夫模型 (HMM)的词性标注新方法,较好地解决了... 张孝飞 张道秧 黄河燕关键词:自然语言处理 词性标注 语料库 文献传递 多语机器翻译及其系列应用系统研究进展 多语机器翻译及其系列应用系统是我们设计并实现的一个多语种、多专业机器翻译核心以及面向不同软硬件平台的系列应用解决方案.本文,我们给出了多语机器翻译及其系列应用系统的设计考虑、总体结构设计、关键技术问题及其主要技术特点. 陈肇雄 黄河燕文献传递 智能教学系统中的知识树增长模型 被引量:35 2001年 智能教学系统 ( intelligent tutoring system,ITS) ,作为人工智能学科的重要研究应用领域 ,是 2 1世纪人类社会数字化教育的必然发展方向 ,迄今研究逾 3 0年 .现有一些 ITS系统由于知识表示以及推理方法的领域相关特性 ,系统构建与系统运用、系统模块之间动态有机联系不强 ,进而导致学生模型弱化等问题 ,限制了系统在进行个别化教学过程中的智能性和推广运用 .在此从系统的知识表示入手 ,基于 SC文法的知识表示体系和知识树映射方法 ,提出了一个动态、实时、自适应、交互式知识树增长模型 ( augm ent knowledge- tree model,AKTM) .模型包括基于SC文法的知识点表示方法、知识树结构以及知识树映射、知识树学生模型、知识点学习循环等内容 ,贯穿于 ITS系统4大传统模块之中 ,并在内容和功能上与之完全集成 .通过知识点层次多维属性标注和索引 ,实现了知识存储、处理、调用和维护动态、一体化过程 .通过知识点学习循环 ,实现个别化、动态、自适应智能教 /学过程 .同时通过模型在多媒体 ITS系统中的实例化设计和运用 ,实现了动态教 /学、领域无关、人机交互、自适应、个别化等智能特点 . 周晓军 黄河燕 张普关键词:智能教学系统 人工智能 多媒体教学 一种改进的多关键字匹配算法 被引量:4 2005年 基于多关键字匹配的Sun Wu算法进行的分析,结合QS算法的思想,设计了一种改进的多关键字匹配算法:QMS(quick multi-pattern searching)。算法使用散列技术和前缀表减少发生部分匹配时实际进行的关键字比较次数。在计算跳跃距离时,充分考虑当前窗口的紧邻下一个字符带来的信息,进而使用更加精确的跳跃距离计算方法以获得更大的平均跳跃距离,从而获得更高的扫描效率和空间利用率。在真实文本上的对比实验表明,在通常应用环境中,该算法显著的缩短了扫描时间,取得了很好的效果。 代六玲 王树梅 黄河燕 陈肇雄关键词:BM算法 QS算法 SUN