中国科学院西部行动计划项目(KGCX2-YW-507)
- 作品数:7 被引量:38H指数:5
- 相关作者:董兴华王磊李晓王磊杨雅婷更多>>
- 相关机构:中国科学院新疆理化技术研究所中国科学院研究生院中国科学院新疆分院更多>>
- 发文基金:中国科学院西部行动计划项目更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 多发音字典在维吾尔语方言语音识别中的应用被引量:5
- 2011年
- 基于标准语音的识别系统在识别带有发音变异的口语语料时,识别率较低。针对这一问题,提出了一种在标准维吾尔语发音字典的基础上生成多发音字典的方法。采用基于专家经验和数据驱动相结合的方法分析了维吾尔语方言口音发音变异规则,构造发音变异集合,生成初始的多发音字典,并运用了自动数据处理算法和门限阈值法,使得能够从方言口音训练语音数据中自动获得精简的多发音字典。实验结果表明:该方法对维吾尔语方言口音的识别性能有提升作用。
- 杨雅婷马博王磊王磊李晓
- 关键词:语音识别维吾尔语
- 基于子字单元的维吾尔语语音识别研究被引量:5
- 2011年
- 为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个语音库上进行实验,采用一种非监督的词切分方法对维吾尔语单词进行词切分,生成子字。实验结果表明,基于子字单元的维吾尔语语音识别可以获得更好的识别结果。
- 薛化建董兴华周喜吐尔洪.吾司曼李晓
- 关键词:维吾尔语隐马尔科夫模型连续语音识别
- 维吾尔语语音识别中发音变异现象
- 维语口语发音中很多音素相对标准语产生了发音变异,基于标准语音的识别系统在识别带有发音变异的口语语料时识别率较低。该文针对维吾尔语同化、弱化、脱落、元音和谐等语流音变难点进行分析,对语音、韵律特性进行知识融合与技术创新,运...
- 杨雅婷马博王磊吐尔洪·吾司曼李晓
- 关键词:语音识别维吾尔语数据分析
- 文献传递
- 多发音字典在维吾尔语方言语音识别中的应用
- 基于标准语音的识别系统在识别带有发音变异的口语语料时,识别率较低。针对这一问题,提出了一种在标准维吾尔语发音字典的基础上生成多发音字典的方法。采用基于专家经验和数据驱动相结合的方法分析了维吾尔语方言口音发音变异规则,构造...
- 杨雅婷马博王磊吐尔洪·吾司曼李晓
- 关键词:语音识别维吾尔语
- 文献传递
- 电话信道维吾尔语口语语料库设计与研究被引量:2
- 2011年
- 在分析一般语音语料库建设方法的基础上,结合实际语料库需求和地域语言特点,提出了适用于电话信道维吾尔语口语语料库建设的设计规范及语音采集、标注方法,建立了时长300小时的电话信道维吾尔语口语语料库,并就电话信道对线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)、自适应成分加权特征(ACW)倒谱等语音特征参数的影响进行分析研究。
- 杨雅婷董兴华王磊吐尔洪.吾司曼李晓
- 关键词:电话信道维吾尔语口语语料库特征参数
- 基于词缀库的非监督维吾尔语词切分方法被引量:7
- 2011年
- 在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。
- 薛化建董兴华王磊王磊蒋同海
- 关键词:维吾尔语粘着语最大后验概率
- 汉维/维汉统计机器翻译中若干问题研究被引量:6
- 2011年
- 针对汉语和维吾尔语形态差别较大的特点,借助开源的Moses工具箱,通过各种翻译模型的对比及相关实验结果的分析,深入探讨了对汉维/维汉翻译有影响的各种因素,包括词对齐问题,汉维翻译中主语、谓语中心词、时态等的一致性问题,维汉翻译中OOV的问题,汉维句法结构差异问题。最后给出了提高汉维/维汉统计翻译性能的一些建议。
- 徐春杨勇董兴华
- 关键词:词对齐一致性句法结构
- 维吾尔语语音识别中发音变异现象被引量:5
- 2011年
- 维语口语发音中很多音素相对标准语产生了发音变异,基于标准语音的识别系统在识别带有发音变异的口语语料时识别率较低。该文针对维吾尔语同化、弱化、脱落、元音和谐等语流音变难点进行分析,对语音、韵律特性进行知识融合与技术创新,运用基于数据驱动和基于专家经验相结合的方法对维吾尔语方言口语中存在的发音变异现象进行研究,统计元音、辅音多发音变化映射对,建立音素混淆矩阵,为维吾尔语方言口语语音识别研究奠定基础。
- 杨雅婷马博王磊王磊李晓
- 关键词:语音识别维吾尔语数据分析
- 基于短语的汉维/维汉统计机器翻译被引量:15
- 2011年
- 利用电话录音的汉维平行语料库和开源的Moses系统构建一个基于短语的统计机器翻译系统。针对汉维平行语料库规模较小和维吾尔语形态变化比较丰富的特点,通过对词级的语料库进行切分得到词素级的语料库,并分别进行词一级的实验和词素级的实验。实验表明,词素级的实验能降低无法识别的词的概率,提高翻译的质量。
- 董兴华周俊林郭树盛吐尔洪.吾司曼
- 关键词:词素预处理后处理