长江学者和创新团队发展计划(IRT0975)
- 作品数:11 被引量:61H指数:5
- 相关作者:珠杰尼玛扎西完么扎西赵栋材李天瑞更多>>
- 相关机构:西藏大学西南交通大学青海师范大学更多>>
- 发文基金:长江学者和创新团队发展计划国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于BP网络的木刻藏文经书文字识别研究被引量:5
- 2012年
- 木刻藏文经书文中出现字符间粘连、断裂、遮挡现象严重,为识别带来极大的困难。在字符切分、特征提取等文字识别方法基础上,增加了基于BP网络的训练方法,通过对大量的木刻藏文经书字符的训练,修正了数据,收敛了识别结果。实验结果显示,此方法有助于提高木刻藏文经书的文字识别正确率。
- 赵栋材
- 关键词:文字识别BP网络
- 面向藏语自然语言处理的藏语语言资源建设被引量:2
- 2012年
- 藏语语言资源的匮乏使很多藏语自然语言处理研究还停留在小规模试验阶段,不能够真正地发展到大规模和实用的程度。国内以西藏大学、青海师范大学、西北民族大学、中国社会科学院等为主的单位各自都在建设藏语资源,但是由于资金、人力、技术等原因,大多数资源还达不到可以实用的规模。而且事先又没有统一的规划和布局,没有相关的系列标准,使得各家的相关资源很难融合。另一方面,因为没有一个好的资源共享机制,使得这些资源难以得到推广和共享。文章从藏语自然语言处理角度分析了藏语语言资源建设的迫切性和重要性以及建设过程中一些问题进行了探讨。
- 赵栋材
- 关键词:自然语言藏语
- 藏文停用词选取与自动处理方法研究被引量:8
- 2015年
- 停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。
- 珠杰李天瑞
- 关键词:词频统计
- 藏文音节规则库的建立与应用分析被引量:14
- 2013年
- 藏文音节具有独特的构造方法,不同的构造位上有不同的藏文字符,根据不同的组合,构成了千变万化的藏文音节,由于字符的语音特性,藏文组合形式上有很多的限制。该文借助藏文文法规则和藏汉大词典,建立了现代藏文音节规则库,并分析了可能的应用领域。
- 珠杰欧珠格桑多吉扎西加高红梅
- 关键词:藏文词频
- 藏文文本自动校对方法及系统设计被引量:13
- 2014年
- 以藏文音节拼写检查、梵音转写藏文检查、接续关系检查、词语检查为研究内容,提出藏文文本自动校对框架和接续关系检查算法。根据该框架及算法,设计并实现藏文自动校对系统。通过实验证明算法和系统的可靠性和有效性。
- 珠杰李天瑞刘胜久
- 关键词:藏文音节
- 基于虚词切分的藏文分词系统的设计与实现被引量:4
- 2012年
- 藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼类性、结合性、黏着变体性和还原特性,设计实现了一个基于藏语虚词切分的正向最大匹配的藏文分词系统,该系统对原始文本进行逐次扫描处理得到分词结果。实验表明,文章提出的藏文分词系统具有较高的切分精度和切分速度。
- 赵栋材
- 关键词:藏文分词藏文信息处理中文信息处理
- 藏语句子边界识别方法被引量:8
- 2012年
- 藏语句子边界识别是一项重要的基础性工作,它的准确率直接影响藏语句法分析、汉藏(或藏汉)平行语料库和藏汉(或汉藏)机器翻译等的研究工作。文章通过分析藏文文法知识,提出了一种比较简单而实用的词性规则法,其主要思想是:单垂符或双垂符的前后词性来判断句子是否结束。经测试,文章提出的藏语句子边界识别方法在文学类、诗歌类、医学类和新闻类等536句藏语语料中句子边界的识别准确率达到96.37%。
- 马伟珍完么扎西尼玛扎西
- 小字符集现代藏文排序技术的研究被引量:3
- 2013年
- 构成藏文音节的字母具有一定的顺序,ISO/IEC10646(Tibetan)中每个藏文字符规定了排序码,但是藏文音节的构造复杂性使得藏文不能直接按构成藏文音节的字母顺序来排序,也不能直接应用这些排序码,提出了基于ISO/IEC10646(Tibetan)的藏文排序算法,主要思想是:从文本中读入藏文音节,并把它转化为一维的字母串;识别基字及调整构成藏文音节的字母(构件)顺序,并且在缺构件位置上添加相应的空格符;用快速排序法对藏文音节串进行排序;构成藏文音节的字母(构件)顺序调回到原来的顺序,去除空格符,并输出。
- 完么扎西尼玛扎西
- 关键词:藏文音节
- 藏文词性自动标注中歧义问题处理方法研究被引量:1
- 2013年
- 藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏文语法规则实用于藏文词性标注的解决词性排岐方法。实验证明:该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。
- 羊毛卓玛
- 关键词:藏文信息处理词缀词性
- 立体匹配SIFT图像特征点提取算法仿真研究
- 2012年
- 研究图像特征优化提取技术。针对同一场景下的投影图像总是存在着一定的差异,造成了图像特征点提取精度低等不足,提出了一种改进的SIFT图像特征点提取算法,采用了SIFT算子算法和立体匹配算法相结合的混合算法。首先给出了图像特征点的相关定义,然后算法对所有像素点进行一次全面地判断,快速而准确的去除掉一部分没有关系的点,在剩余点中选取图像的特征点。实验结果证明了提出的方法能够有效地提取图像关键点信息。
- 高飞沈淑涛
- 关键词:特征提取