您的位置: 专家智库 > >

国家自然科学基金(61063025)

作品数:6 被引量:10H指数:2
相关作者:桑海岩陈莉牛宁宁孙瑞娜古丽拉·阿东别克更多>>
相关机构:新疆大学信息技术实验室新疆财经大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇中文期刊文章

领域

  • 6篇自动化与计算...

主题

  • 4篇哈萨克语
  • 2篇隐马尔可夫模...
  • 2篇语言处理
  • 2篇自然语言
  • 2篇自然语言处理
  • 2篇马尔可夫
  • 2篇马尔可夫模型
  • 2篇哈萨克文
  • 2篇HMM
  • 2篇词性
  • 2篇词性标注
  • 1篇短语
  • 1篇短语抽取
  • 1篇手写
  • 1篇斯拉夫字母
  • 1篇似然比
  • 1篇随机场
  • 1篇随机场模型
  • 1篇条件随机场
  • 1篇条件随机场模...

机构

  • 6篇新疆大学
  • 1篇新疆财经大学
  • 1篇信息技术实验...

作者

  • 2篇陈莉
  • 2篇桑海岩
  • 1篇古丽拉·阿东...
  • 1篇孙瑞娜
  • 1篇牛宁宁

传媒

  • 5篇计算机工程与...
  • 1篇计算机工程

年份

  • 5篇2014
  • 1篇2013
6 条 记 录,以下是 1-6
排序方式:
基于最大熵的哈萨克语词性标注模型被引量:4
2013年
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。
桑海岩古丽拉.阿东别克牛宁宁
关键词:自然语言处理词性标注最大熵模型哈萨克语
基于HMM的联机手写哈萨克文字的识别研究被引量:2
2014年
以基于隐马尔可夫模型和统计语言模型的研究作为基础,着重研究联机手写哈萨克文的切分技术、连体段分类和特征参数的独特提取技术。系统先将提取延迟笔划后的连体段主笔划作为HMM识别器的输入,再根据被识别的主笔划的编号和延迟笔划标记从连体段分类词典中查找,找到对应的连体段识别结果。通过去除连体段延迟笔画的方法可以有效地减少需建立的模型数目,进而提高识别速度和避免由字符切分所带来的问题。
达吾勒.阿布都哈依尔古丽拉.阿东别克
关键词:哈萨克文联机手写隐马尔可夫模型MARKOV
基于HMM的柯尔克孜语词性标注的研究被引量:1
2014年
柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM,改进后的方法有效提高了准确性。
陈莉古丽拉.阿东别克
关键词:柯尔克孜语词性标注
哈萨克语阿拉伯文与斯拉夫文间的智能转换被引量:3
2014年
由于历史原因,哈萨克语(下面简称哈语)在不同的地区形成了不同的文字形式,哈萨克斯坦哈萨克人用斯拉夫字母为基础的斯拉夫字母哈萨克文,而中国哈萨克人用的是阿拉伯字母为基础的阿拉伯字母哈萨克文。为了方便两国之间经济文化的交流,开发自动转换系统具有重要意义。C#编写的哈萨克语两种文字间相互智能转换程序,采用基于规则的方法实现了哈萨克语两种文字形式间的智能转换,准确率达到95.5%。
萨合多拉.木巴拉克古丽拉.阿东别克
哈萨克语“v+n+n”格式的歧义消解
2014年
通过研究大量包含歧义的短语实例,分析计算机处理过程中遇到的短语结构边界判定的歧义问题。针对"v+n+n"这种常见的歧义格式,采用条件随机场模型进行消歧。结合哈萨克语的语言特点,提出基于哈萨克语词尾的类别及位置信息来构建特征模板的方法。以新疆日报(哈语版)2008年30天的数据统计为实验语料,加入消歧策略后名词短语和动词短语的识别准确率分别达到87.23%和97.46%;召回率分别达到80.12%和95.80%。实验结果表明,将提取出的特征引入到条件随机场模型后,系统的准确率、召回率和F值均有所提高。
户冰心古丽拉.阿东别克祁卉
关键词:哈萨克语自然语言处理歧义条件随机场模型
基于排序集成的哈萨克语固定短语抽取
2014年
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。
桑海岩古丽拉·阿东别克孙瑞娜陈莉
关键词:固定短语互信息似然比
共1页<1>
聚类工具0