国家高技术研究发展计划(2001AA114071) 作品数:21 被引量:71 H指数:5 相关作者: 王作英 肖熙 任纪生 吴及 孙健 更多>> 相关机构: 清华大学 北京航空航天大学 更多>> 发文基金: 国家高技术研究发展计划 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
非凸段长分布隐含Markov模型的搜索算法 2005年 基于段长分布的隐含Markov模型(DDBHMM)可解决经典隐含Markov模型(HMM)的状态段长指数分布的问题,实现了基于凸性假设的搜索。为解决非齐次模型的搜索算法问题,提出采用混合Gauss分布来拟合非凸段长分布,用子状态拆分的方法来实现非凸段长分布DDBHMM识别算法。在音乐信号识别上的实验表明:该方法在召回率提高1.1%的情况下,使准确率提高约10%。该方法实现了非凸段长分布HMM的识别算法,并且对于其他非凸段长信号具有推广价值。 吴及 肖熙 许琳 王作英关键词:语音识别 隐含马尔可夫模型 基于指数门限的语音端点检测方法 被引量:3 2005年 提出了一种基于指数门限(ET)的端点检测方法.ET法为短时能量的概密函数(PDF)建立起统一的语音和噪声模型,根据当前语音数据的信噪比估计出最优的检测门限,并给出了最优检测门限的指数型公式.在'八六三'大词汇量连续语音数据库上的实验结果表明,ET法具有较好的检测性能,在噪声环境中表现出较好的稳健性,信噪比为0 dB时,检测正确率可达89.5%.在信噪比为0~15dB时,检测正确率要明显高于基本能量法、对数能量聚类法(LEC)以及χ2法等语音检测(VAD)方法. 吴凤梁 吴及 王作英关键词:语音识别 语音检测 端点检测 口语对话系统中的一种稳健语言理解算法 被引量:2 2005年 为提高口语对话系统中语言理解的稳健性,提出了一种基于最大后验统计框架的两级搜索的理解算法。第一级用概念捆绑达到提取句中关键成分并剔除某些干扰成分的目的;第二级采用改进的基于树扩展的稳健句法分析搜索最佳理解结果,同时引入用户意图推断和句子特征短语两方面的信息对搜索空间进行约束,进一步提高了理解的稳健性和实时率。实验表明,该算法应用于火车信息查询领域,在0.22倍实时下,能得到13.6%的句意理解错误率和25.4%的概念理解错误率,相对基线系统分别为降低了23.2%和9.3%。 陈俊燕 吴及 王侠 王作英关键词:人工智能理论 口语对话系统 概念图 句法分析 基于VTS的稳健语音识别 2005年 为了进一步提高矢量Taylor级数(VTS)算法的模型补偿精度以及在噪声环境下的识别性能,提出将无监督聚类与VTS算法相结合。无监督聚类算法利用噪声模型之间的Kullback-Leibler距离将含噪语音段划分为若干个子段。然后针对各个子段分别进行一阶Taylor级数展开,并在此基础上逐段估计噪声参数和补偿声学模型。该算法结合一个中文数字串识别系统进行实验,在Babble噪声和Gauss白噪声环境下该算法的误识率相对传统的VTS算法分别下降了27.7%和17.8%。证明这种结合无监督聚类的分段VTS算法能够更加有效地将语音和噪声在倒谱域上的非线性混合模型用一阶线性模型来近似。 赵贤宇 欧智坚 王作英关键词:信息处理 语音识别 模型自适应 稳健性 多模式语音端点检测 被引量:10 2005年 在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。 刘鹏 王作英关键词:语音识别 语音端点检测 多模式 基于Dialogic语音卡实时数据采集的电话语音识别系统 被引量:6 2003年 语音识别技术在新一代呼叫中心的IVR系统中得到了广泛的应用。为了使用Dialogic电话语音卡进行语音识别,文章解决了用Dialogic语音卡进行语音数据实时采集的问题,并给出了一种用动态背景噪声电平检测语音的算法,建立起了基于DialogicD/120JCT-LS电话语音卡的自动电话交换转接系统。 肖熙 王侠 王作英关键词:呼叫中心 IVR 语音识别 语音识别中信道和噪音的联合补偿 被引量:11 2006年 频谱和倒谱的联合调整方法,用于对语音识别中信道差异和背景噪音的存在进行联合补偿。该方法根据干净语音的最大似然准则在频域和倒谱域分别对噪音和信道进行补偿,避免了对噪音和信道影响模型进行简化所带来的误差影响,且实现时间复杂度较低。在信噪比由10dB到20dB的含有信道和加性噪音的汉语数字串识别实验中,该方法使平均音节错误率相对下降了50.44%。实验表明频谱和倒谱的联合调整方法可以快速的补偿信道差异和背景噪音。 赵蕤 王作英关键词:语音识别 信道 最大似然准则 时间复杂度 利用隐空间投影算法的模型自适应方法 2007年 为了降低语音识别系统中噪声的影响,提出一种利用隐空间投影算法的模型自适应方法。该方法利用状态间的相关性提取出反映码本和待识别语音共同特性的基矢量。由于语音与噪声是相互独立的,因此,当语音识别系统中有噪声存在时,认为不能用基矢量表示的那部分余量就是噪声。与本征音方法相比,该方法可以有效地降低噪声对语音识别系统的影响。该方法在提取基矢量时利用了自适应数据,并且节省了存储空间。实验结果表明:该方法在噪声环境下相对于最大似然线性回归自适应方法有4~9百分点的提高,相对于最大后验概率和本征音方法有更大的提高。 王晶莹 王作英关键词:信息处理 说话人自适应 基于特征有序对量化表示的文本分类方法 被引量:5 2006年 文本分类技术应尽可能包含语言中各种各样的约束信息,但目前常用的文本表示方法却忽视组成文本的语言特征顺序。该文采用基于聚类的方法实现语言特征有序对的快速量化表示,并由此导出新的基于特征有序对的文本表示方法以揭示文本中所呈现出的语言特征顺序信息。运用向量空间质心法,分别依据词对和词类对表示文本并在3个数据集上进行实验。结果表明性能优于基于单纯词或单纯词类的文本表示方法,宏平均F1值绝对提高分别为3%~4%和5%~7%(相对改善分别是4%~5%和8%~10%)。由此说明特征顺序信息对提升文本分类性能具有重要作用。 任纪生 王作英关键词:文本分类 奇异值分解 基于自回归模型的加性噪声环境稳健语音识别 被引量:3 2006年 为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。 刘敬伟 王作英 肖熙关键词:语音识别 稳健性 自回归模型