您的位置: 专家智库 > >

国家自然科学基金(60931160443)

作品数:13 被引量:37H指数:4
相关作者:刘加宋辉单煜翔杨毅邓妍更多>>
相关机构:清华大学中国科学院电子学研究所更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家科技支撑计划更多>>
相关领域:电子电信自动化与计算机技术更多>>

文献类型

  • 13篇期刊文章
  • 1篇会议论文

领域

  • 13篇电子电信
  • 1篇自动化与计算...

主题

  • 9篇语音
  • 4篇语音识别
  • 3篇阵列
  • 3篇麦克风
  • 2篇语音合成
  • 2篇语种识别
  • 2篇噪声
  • 2篇噪声消除
  • 2篇网络
  • 2篇麦克风阵列
  • 1篇低能量
  • 1篇动态网
  • 1篇动态网络
  • 1篇多路
  • 1篇信号
  • 1篇信号处理
  • 1篇音乐
  • 1篇音乐分类
  • 1篇语言
  • 1篇语言模型

机构

  • 12篇清华大学
  • 1篇中国科学院电...

作者

  • 11篇刘加
  • 4篇宋辉
  • 3篇杨毅
  • 3篇单煜翔
  • 2篇邓妍
  • 2篇钱彦旻
  • 2篇陈谐
  • 2篇史永哲
  • 1篇徐英进
  • 1篇蔡莲红
  • 1篇袁桦
  • 1篇张卫强
  • 1篇赵军红
  • 1篇陈红红

传媒

  • 5篇清华大学学报...
  • 2篇自动化学报
  • 1篇电子与信息学...
  • 1篇电视技术
  • 1篇电声技术
  • 1篇数据采集与处...
  • 1篇计算机工程
  • 1篇Tsingh...

年份

  • 2篇2013
  • 5篇2012
  • 7篇2011
13 条 记 录,以下是 1-10
排序方式:
基于HCSIPA的中英文混合语音合成被引量:4
2013年
基于双语说话人的中英文混合合成,提出一种中英文通用音标符号——HCSIPA,采用发音方式和部位为构造标准。在中英文混合聚类中,构造针对HCSIPA的中英文共用问题集,以提高中英文在决策树结构上的区分度。实验结果表明,HCSIPA能提高中文和英文的发音单元混合度,减少语言差距带来的音色差距,基于HCSIPA的混合合成系统可以合成较高质量的中英文语音,且中英文混合对单种语言合成的质量下降不明显。
徐英进蔡莲红
基于扩展N元文法模型的快速语言模型预测算法被引量:6
2012年
针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~9倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度.
单煜翔陈谐史永哲刘加
关键词:语音识别解码
基于NIST评测的说话人分类及定位技术研究
2011年
该文针对美国国家标准与技术研究院(NIST)的NIST评测,构建了一套多距离麦克风说话人分类及定位语音处理系统,针对NIST富标注评测中提出的说话人分类问题,提出改进的结合时延估计和聚类的说话人分类方法,在保证稳定性的前提下降低说话人分类的复杂度并提高准确率;提出一种新的相邻阵元间时延构造矩阵方程算法,可得到多个说话人的方向角。实验在标准会议环境下采集真实语音数据进行算法验证,说话人分类算法的正确率接近目前主要说话人分类系统的正确率,定位方向角误差在3°以内。实验结果说明,适当条件下多距离麦克风系统可作为合适的语音信号输入设备应用于多人多方会议环境。
杨毅宋辉刘加
基于多路线性预测技术的时延估计被引量:2
2011年
很多麦克风阵列时延估计算法在噪声和混响环境下性能都会下降。该文提出一种基于多路线性预测(multi-ple linear prediction,MLP)的时延估计算法。通过传递函数比估计来消除通道间传递函数的非对称性,提高信号相关程度;空间预测技术引入了阵列冗余信息,并以相关系数矩阵作为时延搜索的目标函数,提高时延估计的可靠性。实验结果显示了多路线性预测算法的估计准确率更高,性能更加稳健。与几种经典算法相比,在噪声和混响环境下MLP算法的估计正确率分别提高了5%和30%以上。
宋辉杨毅刘加
关键词:麦克风阵列时延估计
基于广义奇异值分解的通用旁瓣消除算法被引量:6
2011年
提出一种新的通用旁瓣消除器结构,它利用广义奇异值分解(Generalized singular value decomposition,GSVD)技术,通过广义奇异向量的变换间接估计声源到麦克风之间的传递函数。不同噪声环境下的实验结果表明,与现有的各种GSC算法相比,该算法能够更有效地抑制混响和噪声,并且增强后的语音失真最小。
宋辉刘加
关键词:麦克风阵列语音增强噪声消除广义奇异值分解
基于优化检测网络和MLP特征改进发音错误检测的方法被引量:2
2012年
该文基于优化的检测网络和多层感知(multi-layerperception,MLP)特征,提出一种可以更加准确地检测出错误发音类型的方法。首先,从第二语言学习的语音库中提取出基本的发音规则以及组合的发音规则,并相应地计算它们发生的先验概率,再将这些具有先验概率的规则用于构建基于多发音的扩展检测网络。然后在检测过程中,引入基于发音特征的MLP特征来描述发音概率,替代了传统的语音声学特征。最后使用基于MLP特征的GMM-HMM框架从检测网络中识别出最可能的发音音素串。实验表明:该方法将音素识别正确率提高了3.11%,错误类型准确率提高了7.42%。
袁桦钱彦旻赵军红刘加
关键词:发音错误检测发音规则发音特征
English Speech Recognition System on Chip
2011年
An English speech recognition system was implemented on a chip, called speech system-on-chip (SoC). The SoC included an application specific integrated circuit with a vector accelerator to improve performance. The sub-word model based on a continuous density hidden Markov model recognition algorithm ran on a very cheap speech chip. The algorithm was a two-stage fixed-width beam-search baseline system with a variable beam-width pruning strategy and a frame-synchronous word-level pruning strategy to significantly reduce the recognition time. Tests show that this method reduces the recognition time nearly 6 fold and the memory size nearly 2 fold compared to the original system, with less than 1% accuracy degradation for a 600 word recognition task and recognition accuracy rate of about 98%.
刘鸿钱彦旻刘加
关键词:SYSTEM-ON-CHIP
语种识别中基于局部多样性建模的向量空间模型被引量:1
2011年
针对语种识别中大规模数据库的训练问题,提出一种基于局部多样性建模的向量空间模型。首先将训练数据库分成若干个小数据库,然后利用每个小数据库来训练不同的向量空间模型,最后对不同的模型进行加权组合。为了有效地对不同模型进行组合,需要对模型的加权系数进行优化。对模型组合算法从理论上进行推导,在模型权重与分数线性融合系数之间建立起对应的数学关系,并提出采用逻辑回归方法对不同模型的权重进行估计。在美国国家标准技术局(NIST)2009年度语种识别测试库上的实验结果表明:所提方法不仅能够处理大规模的训练数据,而且相比传统方法识别性能也有了一定程度的提高,系统的等错误率在30 s、10 s和3 s的测试条件下分别下降了8.44%、5.91%以及3.45%。
邓妍张卫强刘加
关键词:语种识别向量空间模型逻辑回归
基于MLER和GMM的语音音乐分类被引量:2
2011年
研究了音频信息处理中一项重要的预处理工作:语音音乐分类。针对语音信号处理中遇到的实际问题,选择合适的音频特征和分类器来对音频数据进行语音和音乐分类。采用二级系统,选择优化低能量率(ModifiedLow Energy Ratio,MLER)以及梅尔频谱倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)作为音频特征,通过贝叶斯分类和混合高斯分类器进行分类。最后,使用上下文分类器对分类结果进行修正。实验结果表明,这种分类方法准确率和速度都较好。
陈红红刘加
一种联合语种识别的新型大词汇量连续语音识别算法被引量:11
2012年
提出了一种联合语种识别的新型大词汇量连续语音识别(Large vocabulary continuo us speech recognition,LVCSR)算法,并构建了实时处理系统.该算法能够充分利用语音解码过程中收集的音素识别假设,在识别语音内容的同时识别语种类别.该系统可以应用于多语种环境,不仅可以以更小的系统整体计算开销替代独立的语种识别模块,更能有效应对在同一段语音中混有非目标语种的情况,极大地减少由非目标语种引入的无意义识别错误,避免错误积累对后续识别过程的误导.为将语音内容识别和语种识别紧密整合在一个统一语音识别解码过程中,本文提出了三种不同的算法对解码产生的音素格结构进行调整(重构):一方面去除语音识别中由发音字典和语言模型引入的特定目标语种偏置,另一方面在音素格中包含更加丰富的音素识别假设.实验证明,音素格重构算法可有效提高联合识别中语种识别的精度.在汉语为目标语种、汉英混杂的电话对话语音库上测试表明,本文提出的联合识别算法将集外语种引起的无意义识别错误减少了91.76%,纯汉字识别错误率为54.98%.
单煜翔邓妍刘加
关键词:语音识别语种识别
共2页<12>
聚类工具0