国家自然科学基金(60763005)
- 作品数:24 被引量:67H指数:7
- 相关作者:吴守用古力沙吾利王花侯呈风伊力亚尔更多>>
- 相关机构:新疆大学新疆医科大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 哈萨克语语句情感识别研究初探被引量:2
- 2011年
- 提出一种机器识别哈萨克语句情感的模型。使用条件随机场CRFs(Conditional Random Fields)对哈萨克语句中的情感关键词进行机器识别,在此基础上结合语句逻辑结构分析,能初步判断出哈萨克语句的喜、怒、哀、俱情感倾向。拓宽了哈萨克语言计算机机处理的范围。
- 王晓莉古里拉.阿东别克
- 现代哈萨克语词级标注语料库的构建研究被引量:7
- 2009年
- 建设高质量的标注语料库是现代哈萨克语自然语言信息处理领域的基础性工程,本文根据哈萨克语独特的语言特点,进行词级带标注的哈萨克语语料库构建研究,首先介绍了不同语言语料库的国内外研究现状,随后针对语料库构建中涉及的主要问题,实现了哈萨克语词级基本语料库的设计与构建.
- 古丽拉.阿东别克达吾勒.阿布都哈依尔木合亚提.尼亚孜别克刘晓洁
- 关键词:哈萨克语语料库语料库构建词性标注
- 哈萨克文信息处理现状中的若干问题探讨被引量:4
- 2011年
- 通过信息领域术语的规范化及翻译、文字输入法原则和键盘布局、语料库建设与语料管理、机器翻译以及文字转换等方面的信息化建设的现状和进展为例,就目前开发和研究哈萨克文信息处理中存在的若干问题进行探讨。
- 木合亚提·尼亚孜别克古力沙吾利
- 关键词:哈萨克文信息处理输入法
- 基于语料的哈萨克语词频统计的研究
- 词频统计在信息处理中发挥重要作用。哈萨克语作为新疆少数民族语言之一,词频统计作为自然语言处理的基础性课题成为需要迫切解决的问题,介绍了Zipf定律及哈萨克语词频统计之间的联系。首先将输入的连续哈萨克语字符串进行分词处理,...
- 王花古丽拉·阿东别克
- 关键词:幂律
- 文献传递
- 基于SVM的哈萨克语文本分类被引量:2
- 2010年
- 介绍了支持向量机(SVM)和k-最近邻法(kNN)分类算法的思想和两种哈萨克语特征提取方法。对SVM、kNN和Bayes算法在哈萨克语文本分类的实验进行了比较。实验结果表明:在处理哈萨克语文本分类问题上,SVM较kNN和Bayes有较好的分类效果。由于哈萨克文单词的语素和构形的特点,若对哈萨克语词缀进行切分,则会降低文本分类的准确率和查全率。
- 王花古丽拉.阿东别克吴守用
- 关键词:文本分类支持向量机
- 我国哈萨克族词汇与哈萨克斯坦词汇间自动转换的研究被引量:3
- 2012年
- 由于居住在不同地区的哈萨克族长期受到不同文化、不同历史等因素的影响,我国哈萨克族使用的词汇与哈萨克斯坦哈萨克语词汇之间发音、术语、口语等方面均有所不同。处理这方面差异的方法是先将用户输入的词汇根据系统所构建的对照词典自动转换,如果词典里未找到该词汇,则根据哈萨克阿拉伯字母和哈萨克斯坦斯拉夫字母之间的对应关系自动转换,其系统词典是基于哈萨克语规则和首字Hash表的词典结构,具有较强的扩展性和使用性。
- 古丽扎达.海沙古丽拉.阿东别克
- 关键词:哈萨克语对照词典词典结构
- 基于位置概率模型的哈萨克语人名识别被引量:1
- 2010年
- 针对哈萨克语文本中人名构成特点,提出了一种基于位置概率模型的哈萨克语人名可信度计算方法,构建了一个哈萨克语人名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的人名进行识别,实验结果表明此方法可行。
- 冯鲸华古丽拉.阿东别克吴守用王花
- 关键词:实体名识别
- 哈萨克文语料库管理系统设计与实现被引量:2
- 2012年
- 设计并实现了一个哈萨克文语料库管理系统.哈萨克文语料库管理系统能很好地对哈萨克文语料进行科学有效地管理,可以为以后哈萨克语言学研究提供可靠的素材.
- 木合亚提.尼亚孜别克古力沙吾利古丽拉.阿东别克吴守用
- 关键词:哈萨克文语料库自然语言处理
- 基于SVM的哈萨克语文本分类初探
- 2010年
- 研究哈萨克语自动文本分类,并实现哈萨克语文本自动分类系统。系统首先对测试语料进行特征提取,而后生成训练模型。其次,对训练语料进行特征提取生成SVM向量。最后,给出测试文本的分类结果。同时对哈萨克语单词切分和未切分进行分类对比,得出未切分单词可以得出更好的分类效果。
- 吴守用
- 关键词:哈萨克语文本分类支持向量机
- 基于N-gram的哈萨克语文本校对系统的设计与实现被引量:4
- 2012年
- 在哈萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词。在哈萨克语文本真词查错部分,根据上下文信息,采用基于N-gram的语言模型,利用文本的局部连接同现概率三元语法模型来进行真词查错,再用基于编辑距离的模式匹配方法对真词错误提供纠错建议。实验结果表明,系统的查错与纠错效率较好,实验方案是可行的。
- 玛依来.哈帕尔古丽拉.阿东别克
- 关键词:哈萨克语N元语法