李亚超 作品数:19 被引量:210 H指数:7 供职机构: 西北民族大学 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 国家重点实验室开放基金 更多>> 相关领域: 自动化与计算机技术 电气工程 文化科学 更多>>
基于云端服务的藏汉双语教学构件重构平台关键技术研究与运用 何向真 万福成 孟祥和 李亚超 马宁 徐涛 马晓伟 夏建华 单义民 傅佳瑶 课题组在任务下达以后,积极与国内外藏文专家、计算机专家及一线教学老师沟通交流,解决课题进展中遇到的各种问题,经过三年时间的艰苦研发,达到了课题的预期目标,超额完成了课题任务。在该期间课题组取得了一系列科技成果,其中包括申...关键词:关键词:藏汉双语教学 基于CRF的维吾尔文命名实体识别研究 2012年 在国内外机器翻译、信息检索等领域中英文及中文的命名实体研究技术基本成熟,但是维吾尔文命名实体识别还处于初步阶段,本文中笔者通过条件随机场模型(Conditional Random Fields,CRF)研究维吾尔文命名实体中的维吾尔族人名、新疆地名、及新疆组织机构名,以此实验来验证这三类实体的识别正确率。 努尔比亚·吐拉甫 于洪志 李亚超关键词:维吾尔文 CRF与规则相结合的藏文人名识别方法 被引量:1 2016年 文章就藏文人名本身的特性分析了人名识别的难点,提出了CRF与规则相结合的藏文人名识别方法.该方法首先以CRF作为机器学习模型,充分利用藏文人名的各类特征,然后针对人名不能全面召回的问题,利用规则方法进行后处理,最终建立了一种优势互补的识别模型.实验结果表明,该文提出的方法具有较好的性能,F-值可达91.55. 加羊吉 李亚超 于洪志关键词:CRF模型 基于条件随机场的藏语自动分词方法研究与实现 被引量:27 2013年 藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。 李亚超 加羊吉 宗成庆 于洪志关键词:条件随机场 格助词 TIP-LAS:一个开源的藏文分词词性标注系统 被引量:25 2015年 TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。 李亚超 江静 加羊吉 于洪志关键词:分词 词性标注 条件随机场 最大熵 融合无监督特征的藏文分词方法研究 被引量:9 2017年 藏文分词是藏文信息处理的基础性关键问题,目前基于序列标注的藏文分词方法大都采用音节位置特征和类别特征等。该文从无标注语料中抽取边界熵特征、邻接变化数特征、无监督间隔标注等无监督特征,并将之融合到基于序列标注的分词系统中。从实验结果可以看出,与基线藏文分词系统相比,分词F值提高了0.97%,并且未登录词识别结果也有较大的提高。说明,该文从无标注数据中提取出的无监督特征较为有效,和有监督的分词模型融合到一起显著提高了基线分词系统的效果。 李亚超 加羊吉 江静 何向真 于洪志关键词:藏文 分词 TIP-LAS:一个开源的藏文分词词性标注系统 TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,TIP-LAS... 李亚超 江静 加羊吉 于洪志关键词:分词 词性标注 条件随机场 最大熵 一种实用的资源稀缺条件下的分词方法 被引量:4 2016年 在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。 马宁 李亚超 何向真 于洪志关键词:分词 神经机器翻译综述 被引量:106 2018年 机器翻译研究将源语言所表达的语义自动转换为目标语言的相同语义,是人工智能和自然语言处理的重要研究内容.近年来,基于序列到序列模型(Sequence-to-Sequence Model)形成一种新的机器翻译方法:神经机器翻译(Neural Machine Translation,NMT),它完全采用神经网络完成源语言到目标语言的翻译过程,成为一种极具潜力全新的机器翻译模型.神经机器翻译经过最近几年的发展,取得了丰富的研究成果,在多数语言对上逐渐超过了统计机器翻译方法.该文首先介绍了经典神经机器翻译模型及存在的问题与挑战;然后简单概括神经机器翻译中常用的神经网络;之后按照经典神经机器翻译模型、基础共性问题、新模型、新架构等分类体系详细介绍了相关研究进展;接着简单介绍基于神经网络的机器翻译评测方法;最后展望未来研究方向和发展趋势,并对该文做出总结. 李亚超 李亚超 熊德意关键词:机器翻译 循环神经网络 机器翻译评测 基于音节标注的藏文自动分词研究 被引量:4 2015年 分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程。针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov网络模型等模型下的分词系统,并在同等条件下进行了实验对比。实验结果表明,在当前四字位的标注集下,基于条件随机场的藏文分词系统取得了最好的分词结果,同时其他序列标注模型也取得了较好的效果,说明基于音节标注的分词方法可以较为有效地处理藏文分词问题。 何向真 李亚超 马宁 于洪志关键词:藏文 分词 最大熵 条件随机场