郑方
- 作品数:145 被引量:495H指数:13
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信语言文字建筑科学更多>>
- 语音命令控制器
- 本发明属于计算机语音识别技术领域,包括定点数字信号处理器,只读存储器,闪存器,对存储器所存数据进行译码的译码器,编码译码器,音频放大器,扬声器与麦克风,以及存储在该闪存器中的语音命令的训练和识别软件;本发明可用于家电产品...
- 郑方吴文虎方棣棠
- 文献传递
- 基于混合幅度差函数的基音提取算法被引量:21
- 2006年
- 为了减少基音周期提取中的倍频和半频错误,进行更准确的基音周期估计,提出一种基于混合幅度差函数的基音周期提取方法.分析比较了不同幅度差和自相关函数估计基音周期错误率的分布,结合两类典型幅度差函数的优点定义了混合幅度差函数;进而基于混合幅度差函数,给出了使用历史信息进行校正的后处理方法.分析表明,所提方法可提高基音周期估计准确率,接近实时地确定基音周期,减少了传统基音周期估计因平滑处理而带来的误差或者动态规划处理带来的延迟.大量实验表明本文提出的基音周期提取方法比传统方法的错误率降低了13.8%.
- 刘建郑方邓菁吴文虎
- 关键词:语音信息处理
- 非特定人连续汉语数字识别方法与系统
- 本文对非特定人连续数字识别方法进行了比较深入的研究.连续数字的识别有着与其他语音识别不同的特点,数字串中各数字之间没有相关的知识,因此要求音节切分及数字识别的正确率都必须很高.为此,作者进行了大量的实验研究,确定使用基于...
- 郑方吴文虎方棣棠
- 文献传递
- 二阶段招聘信息检索方法
- 招聘信息检索与传统信息检索存在较大差异,传统检索方法不能实现良好的招聘信息检索效果。为解决该问题,本文提出二阶段招聘信息检索方法,针对招聘信息的标题文本和职位描述文本分两阶段分别进行不同的处理。第一阶段本文采用VSM模型...
- 王静帆夏云庆郑方邬晓钧
- 关键词:招聘信息计算机检索文本相似度
- 文献传递
- GMM-UBM和SVM说话人辨认系统及融合的分析
- 在说话人辨认任务中,高斯混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)采用帧向量进行建模和识别,突出了说话人个性特征,但受信道...
- 鲍焕军郑方
- 关键词:信息处理说话人辨认支持向量机
- 文献传递
- 一种改善言语清晰度的子带自适应降噪算法
- 助听器对声音进行压缩放大,需求高言语清晰度的噪声算法。本文提出了一种子带自适应噪声抑制方法,通过加权重叠相加滤波器组和基于心理声学模型的子带划分、基于先验和后验信噪比的快变的非线性降噪增益、基于噪声声压级估值的慢变的增益...
- 梁维谦郑方郑佳春朴志刚
- 关键词:噪声抑制子带非线性增益言语清晰度
- 文献传递
- 一种基于HTK的词图搜索算法
- 在连续语音识别中,为了能够在搜索的过程中实现更有效的剪枝策略,必须充分应用语言模型提供的信息.对于在一遍搜索过程中同时使用声学模型和语言模型的搜索算法而言,虽然能够获得比较高的识别率,但是耗时比较多.为此,本文实现了一种...
- 罗春华张继勇郑方徐明星
- 文献传递
- 基于词义类簇的文本表示模型
- 词和多义词现象是文档表示任务面临的重要挑战。因此本文提出了词义类簇模型fSense ClusterMocIel,SCM),在词义类簇空问上表示文档。SCM首先构造词义类簇空问,然后将文档表示在词义类簇空问,获得每篇文档在...
- 唐国瑜夏云庆张民郑方
- 口语对话系统中动态查询组织和应答生成的设计
- EasyNav是一个用于清华校园导游的口语对话系统,这个系统已经在ICSLP2000上介绍过[1].最近,为了解决一些原来版本无法解决的问题,加复杂句型的分析、上下文处理、友好回答等,对其中的查询和应答模块进行了重新设计...
- 李芳吴文虎郑方黄寅飞苏毅
- 文献传递
- 语音识别中听觉特征的噪声鲁棒性分析被引量:8
- 2013年
- 自动语音识别系统在噪声环境下的性能通常会显著下降,这成为制约语音识别技术广泛应用的一个重大障碍。该文在他人的基于Gammatone的听觉特征(GFCC特征)研究基础上,进一步对GFCC与基于Mel频率的倒谱系数(MFCC)在不同噪声环境下的性能表现进行分析研究。选择5种人工和自然噪声进行比较试验:白噪声、粉红噪声、褐色噪声、背景说话人噪声、汽车噪声。通过混合不同类型和不同强度的噪声,系统地研究了基于听觉特性的GFCC特征的特性和抗噪能力;特别地,用不同频段的正弦波噪声与纯净语音混合,分析了GFCC和MFCC在各个频带上的噪声鲁棒性。研究发现,与传统的MFCC相比,GFCC对低频噪声具有更高的鲁棒性,而对中高频噪声相对敏感。由于人类发音通常在较低频率(300~700Hz),这一特性使得GFCC在语音识别任务中具有良好的抗噪能力。实验结果表明,GFCC在多种常见噪声环境下都取得了比MFCC更好的识别效果,特别是在低信噪比的情况下表现出更大的优势。
- 李银国欧阳希子郑方
- 关键词:语音识别鲁棒性