国家自然科学基金(61063025)
- 作品数:6 被引量:10H指数:2
- 相关作者:桑海岩陈莉牛宁宁孙瑞娜古丽拉·阿东别克更多>>
- 相关机构:新疆大学信息技术实验室新疆财经大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于最大熵的哈萨克语词性标注模型被引量:4
- 2013年
- 最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。
- 桑海岩古丽拉.阿东别克牛宁宁
- 关键词:自然语言处理词性标注最大熵模型哈萨克语
- 基于HMM的联机手写哈萨克文字的识别研究被引量:2
- 2014年
- 以基于隐马尔可夫模型和统计语言模型的研究作为基础,着重研究联机手写哈萨克文的切分技术、连体段分类和特征参数的独特提取技术。系统先将提取延迟笔划后的连体段主笔划作为HMM识别器的输入,再根据被识别的主笔划的编号和延迟笔划标记从连体段分类词典中查找,找到对应的连体段识别结果。通过去除连体段延迟笔画的方法可以有效地减少需建立的模型数目,进而提高识别速度和避免由字符切分所带来的问题。
- 达吾勒.阿布都哈依尔古丽拉.阿东别克
- 关键词:哈萨克文联机手写隐马尔可夫模型MARKOV
- 基于HMM的柯尔克孜语词性标注的研究被引量:1
- 2014年
- 柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM,改进后的方法有效提高了准确性。
- 陈莉古丽拉.阿东别克
- 关键词:柯尔克孜语词性标注
- 哈萨克语阿拉伯文与斯拉夫文间的智能转换被引量:3
- 2014年
- 由于历史原因,哈萨克语(下面简称哈语)在不同的地区形成了不同的文字形式,哈萨克斯坦哈萨克人用斯拉夫字母为基础的斯拉夫字母哈萨克文,而中国哈萨克人用的是阿拉伯字母为基础的阿拉伯字母哈萨克文。为了方便两国之间经济文化的交流,开发自动转换系统具有重要意义。C#编写的哈萨克语两种文字间相互智能转换程序,采用基于规则的方法实现了哈萨克语两种文字形式间的智能转换,准确率达到95.5%。
- 萨合多拉.木巴拉克古丽拉.阿东别克
- 哈萨克语“v+n+n”格式的歧义消解
- 2014年
- 通过研究大量包含歧义的短语实例,分析计算机处理过程中遇到的短语结构边界判定的歧义问题。针对"v+n+n"这种常见的歧义格式,采用条件随机场模型进行消歧。结合哈萨克语的语言特点,提出基于哈萨克语词尾的类别及位置信息来构建特征模板的方法。以新疆日报(哈语版)2008年30天的数据统计为实验语料,加入消歧策略后名词短语和动词短语的识别准确率分别达到87.23%和97.46%;召回率分别达到80.12%和95.80%。实验结果表明,将提取出的特征引入到条件随机场模型后,系统的准确率、召回率和F值均有所提高。
- 户冰心古丽拉.阿东别克祁卉
- 关键词:哈萨克语自然语言处理歧义条件随机场模型
- 基于排序集成的哈萨克语固定短语抽取
- 2014年
- 短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。
- 桑海岩古丽拉·阿东别克孙瑞娜陈莉
- 关键词:固定短语互信息似然比