国家自然科学基金(61063033)
- 作品数:11 被引量:53H指数:4
- 相关作者:才让加周毛先孙茂松刘群赵海兴更多>>
- 相关机构:青海师范大学清华大学陕西师范大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划青海省科技厅基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 融合单语语言模型的藏汉机器翻译方法研究被引量:5
- 2019年
- 由于藏汉平行语料匮乏,导致藏汉神经网络机器翻译效果欠佳,该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法,首先利用神经网络实现藏语单语语言模型,然后使用Transformer实现藏汉神经网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为18.6,融合藏语单语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别提高了3.4和4.7。
- 慈祯嘉措桑杰端珠孙茂松色差甲周毛先
- 关键词:藏语语言模型机器翻译神经网络
- 基于词对依存分类的藏语树库半自动构建研究被引量:8
- 2013年
- 依据依存句法理论,该文制订了藏语句法标注体系及层次结构。通过分析构建藏语依存树库中存在的问题,提出了半自动依存树库构建模式,针对藏语特性提出了融合丰富特征的词对依存分类模型和依存边标注模型,实现了依存树库构建可视化工具,校对构建了1.1万句藏语依存句法树后,在基线系统下经实验验证,依存识别正确率提高了3%,使构建藏语依存树库工作取得了有效进展。
- 华却才让姜文斌赵海兴刘群
- 基于神经网络的藏文正字检错法被引量:2
- 2020年
- 在缺乏标注数据的条件下,该文将藏文正字检错任务视为一个分类问题:首先从语言学知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT作为分类模型,最后为了证明该方法的有效性,构建两个基线模型和三种不同领域的测试集,实验结果表明,该方法的结果优于两个基线模型。该文方法在相同领域测试集上句子分类的正确率达到93.74%,不同领域测试集上也能达到83.6%。对错误音节的识别率为74.53%,同时对无错误音节的误判率只有2.30%。
- 色差甲慈祯嘉措才让加华果才让
- 基于组块分割的无监督藏文句法分析方法研究
- 2022年
- 由于藏文句法树库的构建在藏语自然语言处理中是一项专业性强及费时费力的工作,目前还没有公开的藏文句法树库,这一现状导致有监督方法在藏文句法分析任务中的运用存在较大困难。鉴于此,提出了一种基于组块分割的无监督藏文句法分析方法,首先对藏文组块进行了定义和分割,然后在此基础上提出无监督藏文句法分析方法并设计了藏文句法优化算法。提出的方法在不同句子长度和不同领域分布的各类测试集上都取得了显著效果,优于基准方法的结果,证实了提出的方法在缺少标记数据的设定下的有效性。
- 卓玛扎西才让加色差甲班玛宝
- 关键词:自然语言处理
- 面向汉藏机器翻译后处理的藏文虚词纠错模型被引量:3
- 2021年
- 机器翻译是自然语言处理的主要分支之一,在促进政治、经济、文化交流等方面起着重要作用。目前汉藏机器翻译质量还有待提高,汉文到藏文的译文中容易出现语法错误,尤其普遍存在藏文虚词的翻译错误。分析汉藏机器翻译译文中的藏文虚词错误类型,并究其自动纠错方法是提高汉藏机器翻译性能最有效的方法。在分析汉藏机器翻译译文中虚词错误类型的基础上,利用大规模藏文文本对Bert进行预训练。然后面向汉藏机器翻译译文中的虚词错误类型,针对性的对Bert预训练模型进行微调,以完成一种面向汉藏机器翻译后处理的Bert藏文虚词纠错模型的训练。经实验,模型的纠错准确率、召回率和F1值分别达95.64%,93.27%,94.44%,表明上述模型的藏文虚词纠错性能较好。
- 华果才让班玛宝桑杰端珠才让加
- 关键词:机器翻译
- 面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究被引量:18
- 2011年
- 双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。
- 才让加
- 关键词:对齐技术
- 基于迭代式回译策略的藏汉机器翻译方法研究被引量:8
- 2020年
- 该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。
- 慈祯嘉措桑杰端珠孙茂松周毛先色差甲
- 关键词:回译稀缺资源神经网络
- 藏汉句子局部对齐策略的研究被引量:2
- 2010年
- 介绍了藏汉句子自动对齐系统及其对齐方法,详细地分析了基于平行语料的藏汉句子自动对齐问题,提出了利用大规模高效藏汉双语词典进行句子局部对齐的策略,并做了验证.
- 华却才让
- 关键词:句子对齐评价函数
- 基于WAMP的藏汉英互译在线词典的设计与实现被引量:2
- 2011年
- 根据目前在线藏汉英词典使用的实际需求,青海师范大学藏文信息处理省部共建教育部重点实验室设计实现了一种基于WAMP平台的藏汉英互译在线词典,并给出了词典数据库和查询页面的具体设计方法和关键代码。经测试,该在线词典根据用户的需要,输入单字和词就可以在藏汉英三语间交互查询并快速检索到对应的译词。词典采用B/S结构,它的实现有助于藏汉英三语间的交流和学习。
- 周毛先头旦才让才让加
- 关键词:藏文在线词典WAMPB/S结构数据库
- 融合双通道音节特征的藏文La格例句自动分类模型被引量:4
- 2022年
- 基于藏文La格(■)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型。该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富输入特征的表达和提高卷积层的空间表征能力;然后在每一路卷积均使用结合层级注意力机制的Bi-LSTM学习时序特征后,拼接多路特征,提高上下文时序特征的学习能力;最后通过全链接层和Softmax层实现藏文La格例句自动分类。实验结果表明,该模型在测试集上的藏文La格例句分类准确率达到90.26%。
- 班玛宝才让加张瑞色差甲卓玛扎西
- 关键词:自然语言处理