杨雅婷 作品数:92 被引量:103 H指数:5 供职机构: 中国科学院新疆理化技术研究所 更多>> 发文基金: 中国科学院西部之光基金 国家自然科学基金 中国科学院西部行动计划项目 更多>> 相关领域: 自动化与计算机技术 语言文字 电子电信 文化科学 更多>>
维-汉统计机器翻译中维吾尔语预处理研究 被引量:3 2014年 为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶词和标点符号进行特征分析的基础上,导出维吾尔语文本词例化和标点符号规范化的规则和处理流程。实验结果表明,该研究有效降低了词对齐阶段的单词数量、缓解了数据稀疏,提高了翻译质量。 艾孜孜.吐尔逊 杨雅婷 吐尔洪.吾司曼 周俊林 李晓关键词:维吾尔语 单词 标点符号 基于词缀的维吾尔谚语识别关键技术研究 2018年 在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类(词缀)组成的、专属维吾尔谚语规则的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础。 穆妮热.穆合塔尔 李晓 杨雅婷 杨雅婷 周喜关键词:维吾尔谚语 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质 本发明公开了一种基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质,涉及信息处理领域,尤其涉及文本过滤、内容监管领域。具体实现方案为:利用汉维双语将汉语关键词翻译为维吾尔语关键词;对获得的维吾尔语关键词进行... 杨雅婷 艾孜麦提·艾尼瓦尔 董瑞 马博 王磊 周喜文献传递 基于短语汉维机器翻译解码的研究及实现 被引量:3 2019年 针对汉、维翻译中维语形态变化复杂、汉维语句法结构不同等造成的解码局限性问题,将解码中语言模型的评分调整为重点考虑短语衔接处的单词串的得分,引入词向量进行短语相似度计算,利用词向量将单词间隐含的语义关系加入到解码评分;调整解码的调序距离限制方法,设计一个限制解码中短语扩展的方法,使解码的调序更符合汉维翻译的实际;在此基础上,按优化的方案实现解码器。实验结果表明,优化能使译文BLEU值在基线方案基础上提升3.46,最终方案解码器的译文BLEU值为29.18。 杨世勤 王磊 杨雅婷 杨雅婷关键词:解码 语言模型 一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质 本发明公开了一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质,该方法包括:获取多种语言的源语言文本,得到不同文本的语料集合;分别将不同文本的语料集合输入产生词向量的Glove模型中,提取源语言的语义特征,得到多... 杨雅婷 罗涵天 马博 董瑞 王磊 周喜文献传递 基于粘着性模糊规则的维汉机器翻译最大熵调序研究 被引量:2 2013年 针对维汉机器翻译中未登录词和译文乱序问题严重的现象,结合维吾尔语粘着性语言特点以及最大熵分类算法,提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础,在维吾尔语词级别构建粘着性规则约束,从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明,与当前主要MSD(mono、swap、discontinuous)等调序方法相比,该方法较好地体现了维吾尔语的粘着性特点,提高了译文质量。 陈科海 周喜 杨雅婷 米成刚关键词:形态学 粘着性 模糊规则 最大熵 基于多尺度风格自适应的手写维文识别模型 2024年 基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适应模块提取序列特征;构建特征泛化融合模块对笔划特征和序列特征进行深度融合,提升识别效果。实验结果表明,该模型在真实手写维文测试集WER、CER分别下降3.75%、0.19%,在IAM数据集中验证了模型迁移性。 闫林 王磊 艾孜麦提·艾尼瓦尔 杨雅婷 杨雅婷关键词:多尺度 结构化数据语义表征方法、装置、设备及介质 本公开提供了一种结构化数据语义表征方法,可应用于自然语言处理、结构化数据语义表征和大模型技术领域。该方法包括以下步骤:将结构化数据输入目标结构语义表征模型;使用基于图神经网络的结构特征提取器对结构化数据中的结构信息进行编... 周喜 杨奉毅 杨雅婷 马博 王磊 艾比布拉·阿塔伍拉 毕然 蒋同海基于字符串相似度的维吾尔语中汉语借词识别 被引量:6 2013年 维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。 米成刚 杨雅婷 周喜 李晓 杨明忠关键词:借词 未登录词 字符串相似度 基于多策略的维吾尔文网页识别方法 2017年 经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。 阿力木.木拉提 艾孜尔古丽 杨雅婷 李晓关键词:维吾尔文 网页识别 常用词 向量空间模型