国家自然科学基金(60263001)
- 作品数:5 被引量:11H指数:3
- 相关作者:华沙宝达胡白乙拉巴达玛敖德斯尔更多>>
- 相关机构:内蒙古大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金内蒙古自治区哲学社会科学规划项目更多>>
- 相关领域:语言文字自动化与计算机技术更多>>
- 对蒙古语语料库基本名词短语的定界与统计分析被引量:4
- 2005年
- 解决蒙古语基本名词短语的定界问题,是在蒙古语词性标注语料库的基础上进行的探索性研究。基本名词短语的内部结构信息对其定界问题具有重要作用。确定基本名词短语内部结构的因素有多种,但基本名词短语成分的词类信息是最基本的因素。我们以词类信息为核心,附加一些限定条件,构建识别基本名词短语的形式规则集,并在实际语料中进行基本名词短语标注测试。
- 华沙宝达胡白乙拉
- 关键词:中文信息处理蒙古语基本名词短语短语结构形式化描述
- 蒙古语基本动词短语结构关系研究
- 2008年
- 蒙古语基本动词短语结构关系有宾述、状述、辅助、体述、联合等5种结构关系和相应的形态连接特征。蒙古语基本动词短语结构关系判定的优先级别是:前焦型最高,其次是后焦型,并焦型级别最低。
- 达胡白乙拉
- 关键词:蒙古语
- 蒙古语短语标注策略被引量:3
- 2003年
- 蒙古语短语标注是蒙古语语料库语言学研究的进一步深化。它既要包含语言学需要深入研究的内容,又要解决形式化描述处理的一系列问题。从整体上讲,规则与统计方法相结合,是实现短语自动划分和标注的最佳途径。但是,蒙古语作为一种黏着性语言,其短语结构具有自己独特的一面。我们将立足蒙古语本身,建立适合于蒙古语短语规律的规则集,采取规则和统计相结合,循环渐进的策略。本项目的主要创新点是信息处理用蒙古语短语分类体系、形式化描述及其标记、边界划分规则和知识库。其中,知识库对解决短语歧义划分问题起到决定性的作用。
- 华沙宝
- 关键词:蒙古语短语语料库
- 蒙古语基本名词短语自动标注研究
- 本文对蒙古语基本名词短语进行功能分类的前提下,以蒙古语词类和词语形态变化特征为主要依据,归纳出相应的结构规则12条,井用带有复杂特征标记的PSG重写规则形式来进行形式化描述。在此基础上,用C语言编写了基本名词短语自动标注...
- 达胡白乙拉
- 关键词:蒙古语形式化描述
- 文献传递
- 对蒙古语语料库的短语标注被引量:2
- 2006年
- 通过本项研究,我们对100万词级现代蒙古语语料库做了短语标注,建立了现代蒙古语基本短语库。这一成果,对今后建立一个面向信息处理的、具有较强通用性的蒙古语语义分类和描述体系,提供了必要的前提条件。局部测试结果表明,标注软件对简单句子标注基本短语的召回率和准确率分别达到了92.93%和86.79%。今后有必要深入研究语义信息的获取、语法信息的细化以及蒙古语短语的歧义结构种类、产生歧义结构的原因等问题。
- 华沙宝达胡白乙拉
- 关键词:蒙古语语料库
- 蒙古语语料库建设现状分析和完善策略
- 本文对现代蒙古语语料库的语料做了分析,指出了语料的种类、规模、各类标记和标注加工等方面存在的问题,提出了将要采取的完善策略和近期达到的建设目标。重点建设蒙古语单语语料库,还要建立汉蒙并行语料库。
- 华沙宝巴达玛敖德斯尔
- 关键词:现代蒙古语语料库
- 文献传递
- 蒙古文扫描识别系统自动校正算法设计
- 本文以《蒙古文印刷体扫描识别系统》导致的文本错误为对象,观察文本中具有典型特征的各案例,并在此基础上提出了规则和相似度模型相结合的蒙古文扫描识别系统自动校正算法。
- 包敏娜华沙宝
- 关键词:蒙古文
- 文献传递
- 面向信息处理的蒙古语词语分类体系研究被引量:4
- 2004年
- 提出面向信息处理的现代蒙古语词语分类体系及其标记集,并且对分类体系中的15个词类的分布特征从形态变化、句子成分功能和短语组合功能等方面进行了描述。
- 巴达玛敖德斯尔
- 关键词:蒙古文信息处理
- 蒙古语宾述短语的自动获取研究
- 本文讨论了由名词和动词构成的基本宾述动词短语的自动获取问题,介绍了用基于规则方法来实现自动获取蒙古语宾述短语的探索结果。根据现代蒙古语语料库的部分语料,归纳了一套自动获取规则,规则包含短语成分的词类信息、形态信息和上下文...
- 华沙宝达胡白乙拉
- 关键词:蒙古语动词短语歧义消解
- 文献传递