国家高技术研究发展计划(2004AA114030) 作品数:6 被引量:18 H指数:2 相关作者: 王仁华 吴晓如 张巍 胡郁 陈思宝 更多>> 相关机构: 中国科学技术大学 安徽科大讯飞信息科技股份有限公司 中国海洋大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 更多>> 相关领域: 电子电信 自动化与计算机技术 轻工技术与工程 更多>>
基于双高斯GMM的特征参数规整及其在语音识别中的应用 被引量:9 2006年 对特征参数概率分布的实验分析表明,在有噪声影响的情况下,特征参数通常呈现双峰分布.据此,本文提出了一种新的,基于双高斯的高斯混合模型(Gaussian mixture model,GMM)的特征参数归一化方法,以提高语音识别系统的鲁棒性.该方法采用更为细致的双高斯模型来表达特征参数的累积分布函数(CDF),并依据估计得到的CDF进行参数变换将训练和识别时的特征参数的分布都规整为标准高斯分布,从而提高识别正确率.在Aurora 2和Aurora 3数据库上的实验结果表明,本文提出的方法的性能明显好于传统的倒谱均值规整(Cepstral mean normalization,CMN)和倒谱均值方差规整(Cepstral mean and variance normalization,CMVN)方法,而与非参数化方法一直方图均衡特征规整方法的性能基本相当. 刘波 戴礼荣 王仁华 杜俊 李锦宇关键词:语音识别 前端 噪声鲁棒性 直方图均衡 一种结构受限的异方差线性判别分析 2008年 异方差线性判别分析(HLDA)因在语音识别中起到了巨大的特征去相关作用而被广泛利用。然而在训练数据不足或特征维数较高时,HLDA易出现不稳定性和小样本问题。根据特征的矩阵表示形式,提出了一种结构受限的HLDA。首先用二维线性判别分析(2DLDA)压缩矩阵形式的特征,然后作一维的HLDA。通过分析我们指出,二维的特征变换实际上是一种结构受限的一维特征变换。在RM库上的实验,受限HLDA对常规HLDA的词识别错误相对下降12.39%;在TIMIT库上的实验,受限HLDA对常规HLDA的音素识别错误相对下降4.43%。 陈思宝 胡郁 王仁华关键词:计算机应用 中文信息处理 语音识别 分类问题的一种可伸缩特征选择算法 被引量:7 2005年 特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式———BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效. 张巍 邹翔 吴晓如关键词:数据挖掘 数据驱动方法的语音库裁剪研究 2008年 为解决语音库裁剪会造成不定长损失的问题,首先提出了 NuClustering-VPA 算法,该算法对不同粒度的不定长变体进行递阶聚类,根据高阶聚类结果调整低阶变体的聚类,从而保留在声韵上最为重要的变体。接着提出了虚拟不定长替换的概念,意图弥补不定长的损失,并结合合成使用变体的频度,给出了可以任意比例裁剪语音库的 StaRp-VPA算法。大规模测听表明,两种算法在裁剪率小于50%时,合成自然度几乎没有下降;当裁剪率大于50%时,StaRp-VPA 给出的音库合成自然度也不会严重降低。两种裁剪在合成系统的移植中得到了很好的应用。 张巍 吴晓如 王仁华关键词:语音合成 语音库裁剪的一种不定长递阶聚类方法 被引量:1 2007年 大量使用不定长是大语料库语音合成质量的一个重要保证,而语音库裁剪方法通常会导致不定长的损失.针对这一关键性问题,该文构建了NuClustering-VPA算法:对不同粒度的不定长变体进行聚类,根据高阶聚类结果调整低阶变体的聚类,使得低阶聚类中心有所偏向.NuClustering-VPA算法保留了最重要的不定长,从而有效减小了裁剪对不定长的破坏.测听实验表明,利用NuClustering-VPA算法,即使在语音库裁减率为39.63%时,合成自然度下降较小,仍然保持在较高的水平.这一技术已被应用在科大讯飞公司的实际语音产品中. 张巍 吴晓如 刘江 王仁华基于树的相关系数补偿满方差建模技术 被引量:1 2008年 为了实现语音识别中基于隐Markov模型(hidden Markov model,HMM)的满方差建模,该文提出了基于树的相关系数的补偿方法。首先自顶向下构建状态的回归树,用简化的仅考虑协方差的对称Kullback-Leibler散度来度量Gauss之间的差异。每个Gauss核接到相应状态下作为叶子节点。叶子节点的相关系数矩阵用其父节点及祖先节点的相关系数矩阵的线性插值得到。线性插值权在最大似然意义下进行优化。实验结果显示取得的识别性能相对异方差线性判别分析、半绑定协方差、基于树的协方差非对角补偿方法的字误识率分别相对下降9.71%、9.17%和4.12%。 陈思宝 姚志强 胡郁 王仁华关键词:语音识别 相关系数 基于树的相关系数补偿满方差建模技术研究 为了实现语音识别中基于HMM 的满方差建模,本文提出了基于树的相关系数的补偿方法。首先自顶向下构建状态的回归树,用简化的仅考虑协方差的对称Kullback–Leibler散度来度量高斯之间的差异。每个高斯核接到相应状态下... 陈思宝 姚志强 胡郁 王仁华关键词:语音识别 相关系数 文献传递 语音库裁剪中的不定长处理 不定长技术使得基于语料库的语音合成系统合成出高自然度的语音,而语音库裁剪方法通常会导致不定长的损失。针对这一关键性问题,本文首先提出NuClustering-VPA 算法:对不同粒度的不定长变体进行递阶聚类,根据高阶聚类... 张巍 吴晓如 胡国平 王仁华关键词:语音合成 文献传递