吴镇扬
- 作品数:222 被引量:959H指数:17
- 供职机构:东南大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:电子电信自动化与计算机技术文化科学理学更多>>
- 利用DSP实现的实际环境下语音识别方法
- 2003年
- 该文提出了一种在实际环境下利用DSP实现的语音识别方案,通过户外实际环境的语音识别实验,这种方法的有效性得到了验证。
- 肖圣兵赵力刘海滨吴镇扬
- 关键词:语音识别数字信号处理器谱相减动态规划
- 并行子带HMM最大后验概率自适应非线性类估计算法被引量:1
- 2005年
- 目前,自动语音识别(ASR)系统在实验室环境下获得了较高的识别率,但是在实际环境中,由于受到背景噪声和传输信道的影响,系统的识别性能急剧恶化。本文以听觉试验为基础,提出一种新的独立子带并行最大后验概率的非线性类估计算法,用以提高识别系统的鲁棒性。本算法利用多种噪声和识别内容功率谱差异,以及噪声在不同频带上对HMM影响的不同,采用多层感知机(MLP)对噪声环境下最大后验概率进行非线性映射,以减少识别系统由于环境不匹配而导致的识别性能下降。实验表明:该算法性能明显优于最大后验线性回归算法和Sangita提出的子带语音识别算法。
- 孙暐吴镇扬刘海滨周琳
- 关键词:最大后验估计隐马尔可夫模型语音识别听觉场景分析
- 数字音频压缩中的变换编码算法被引量:25
- 1999年
- 变换编码是音频压缩中一个重要部分,文中叙述MPEG音频编码标准中的变换编码技术,包括改进余弦变换和反变换(MDCT和IMDCT),时域混叠抵消与自适应窗选择,详细推导了MDCT和IMDCT的快速算法。
- 梁彬吴镇扬
- 关键词:MDCT数字音频压缩
- 汉语连续语音识别中语音处理和语言处理统合方法的研究被引量:18
- 2001年
- 提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%.
- 赵力邹采荣吴镇扬
- 关键词:汉语连续语音识别语音处理语言处理统合
- 基于实例的文本图像超分辨率重建
- 本文研究从单幅低分辨率文本图像重建出高分辨率文本图像的算法,文中采用新机制通过实例图像获得重建图像的先验知识,该先验知识表现为重建图像各像素灰度值的概率密度函数形式,然后利用最大后验概率估计方法(MAP)估计出高分辨率图...
- 杨浩吴镇扬
- 关键词:文本图像图像重建先验知识超分辨率重建
- 文献传递
- H.26L甚低码率视频压缩标准的性能分析被引量:3
- 2004年
- H.26L是VCEG(视频编码专家组)制定的新的甚低码率图像压缩标准,主要应用于可视电话和网络视频传输。本文讨论了H.26L的编码原理及其相对于H.263视频编码标准的新发展,分析了该标准的优点及实用化遇到的问题。计算机对比实验表明H.26L通过采用1/4精度运动估计、增强的先进帧间预测编码和帧内预测编码,在保证图像质量的情况下,压缩码率有明显改善,但同时运算的复杂度也大大增加。
- 胡学龙刘中伟吴镇扬
- 关键词:低码率视频编码帧间预测帧内预测H.26L
- 基于双通路声信号的声源定位方法
- 一种基于双通路声信号的声源定位方法是一种改进的声源定位方法,本法将各频带耳间时间差ITD和耳间强度差IID的均值和方差作为声源方位的定位特征线索,建立方位映射模型。在实际声源定位时,输入为双通路声信号,输入声信号先经过类...
- 周琳周菲菲胡婕吴镇扬
- 基于SIFT特征的粒子群优化的视觉跟踪算法被引量:5
- 2012年
- 提出了一种基于SIFT(scale invariant feature transform)特征的表观模型更新的粒子群优化(particle swarmoptimization,PSO)跟踪算法。与现有的跟踪方法不同,该算法将当前帧检测到的SIFT特征与最近更新的目标模板相匹配,估计目标的位置,然后把此位置信息融入到PSO的结果中以得到更加精确的位置估计,并把其作为新的目标模板,从而更加鲁棒地应对表观模型的更新问题。实验结果表明,提出的SIFT-PSO算法在目标发生大的运动变化和局部遮挡条件下仍然能够可靠地跟踪目标。
- 程旭李拟珺吴镇扬
- 关键词:视觉跟踪SIFT粒子群优化
- DTS相干声学编码被引量:3
- 2002年
- 介绍了相干声学编码,探讨了线性PCM数字信号的缺陷,并从自适应差分编码和心理声学分析两个方面阐述了编码策略,接着论述了多相滤波器组的特点,并简要说明了性能测试及其结果。结合当前的发展趋势,阐述了DTS的应用现状。
- 戴霖周琳吴镇扬
- 关键词:数字影院系统DTS
- 基于矢量泰勒级数的模型自适应算法被引量:2
- 2010年
- 在实际环境中,由于测试环境与训练环境的不匹配,语音识别系统的性能会急剧恶化。模型自适应算法是减小环境失配影响的有效方法之一,它通过测试环境下的少量自适应数据,将HMM模型的参数变换到测试环境下。该文将矢量泰勒级数用于模型自适应,同时对HMM模型的均值向量和协方差矩阵进行变换,使其与实际环境相匹配。实验证明,该文算法优于MLLR算法和基于矢量泰勒级数的特征补偿算法,在低信噪比环境中性能提高尤为明显。
- 吕勇吴镇扬
- 关键词:语音识别模型自适应隐马尔可夫模型