黄鹤鸣
- 作品数:66 被引量:137H指数:7
- 供职机构:青海师范大学计算机学院更多>>
- 发文基金:国家自然科学基金青海省自然科学基金国家电子信息产业发展基金更多>>
- 相关领域:自动化与计算机技术语言文字理学文化科学更多>>
- 面向网络舆情分析的多任务学习策略时间卷积网络被引量:1
- 2023年
- 检测与识别网络中语音的情感状态有助于把控舆情信息,若能同时辨别说话人及其性别,则对掌握舆情的真实意图更有帮助。基于数据集EMODB,提出用于情感分类、说话人辨别和性别识别的多任务学习策略时间卷积网络(DTCN)。针对多任务学习中数据集较小的问题,设计数据增强技术,在不同信噪比下采用加噪的方式对数据集EMODB进行扩充,构建单信噪比含噪数据集EMODB-10、EMODB-5、EMODB0、EMODB5、EMODB10以及多信噪比含噪数据集EMODBM。同时,通过研究单一噪声和混合噪声,验证不同噪声对DTCN模型性能的影响。为了更好地表征数据特性,提出适用于多任务学习的声学特征集。实验结果表明,在具有正信噪比和多信噪比含噪数据集上进行测试时,DTCN模型在多任务学习场景下的表现均优于基线,较容易辨别说话人性别,且随着噪声种类增多,对多任务学习的性能不断提高,在混合噪声下鲁棒性和泛化性更好。
- 张会云黄鹤鸣
- 关键词:语音情感识别多任务学习
- 藏文字笔画编码排序的设想被引量:1
- 2013年
- 藏文字符排序将被广泛应用于藏文文字信息处理的各个方面,包括字、词典的排序、系统软件和其他应用软件.试图对藏文的书写笔画排序规则做出较为正确、合理的归纳和富有逻辑性的描述,目的是为了找到一种在计算机里自动实现藏文笔画排序的算法模型,并打破了藏文字符仅依赖于音节部首结构排序的传统思维定式和框架.
- 刘城黄鹤鸣李继文
- 关键词:藏文笔画模式识别音节
- 基于双注意力YOLOv5的场景藏文检测被引量:1
- 2023年
- 为有效提高场景藏文文本检测性能,提出一种基于双注意力YOLOv5的场景藏文检测框架,简称为YOLOv5 Dual-attention。通过在YOLOv5模型上下采样层之间采用背景抑制模块,聚合多尺度的初始特征,抑制卷积特征中的背景干扰;在YOLOv5的颈部和检测头中间嵌入卷积注意力提高卷积提取特征的能力,使网络具有精确推断文本的能力。实验结果表明,在二分类MSTD500测试集上,改进后的模型YOLOv5x Dual-attention+α-IoU对单类藏文场景文本检测的F1达到了84.65%,比目前最好的同类检测结果高出12.65个百分点,有效降低了文本目标漏检和误检可能性。
- 才让当知黄鹤鸣范玉涛樊永红
- 关键词:损失函数
- 基于Rcnn+Char_SegNet的藏文乌梅长文本识别
- 2023年
- 藏文文字识别在藏文古籍文献、藏文办公自动化以及藏汉双语教育等领域具有非常重要的应用价值。作为两种常见的藏文字体之一,乌梅字体中笔画粘连和交错现象严重,导致识别难度较大。为此,该文提出了基于Rcnn+Char_SegNet的藏文乌梅长文本识别。首先,在CNN的每个卷积层中添加循环连接,增强CNN提取乌梅字粘连片段的特征和集成上下文信息的能力;其次,对提取的图像文本特征序列采用BiLSTM进行建模;最后,采用字丁切分模块增强CTC对图像序列和标签对齐的监督能力。在自行构建的Cursive Script-C517测试数据集上,该模型的最高准确率和平均准确率分别达到了99.80%和91.43%,分别比基线提高了1.45和48.47个百分点。此外,通过字符级词典库训练,使模型的训练时间减少了13.63%。实验表明,该方法有效解决了乌梅字体中笔画粘连和交错现象严重导致的识别错误问题,显著提升了印刷体藏文乌梅识别精度,减少了训练时间,且具有较好的鲁棒性。
- 才让当知黄鹤鸣李鑫元张会云
- 一种基于VBA的藏文音节排序方法的设计与实现
- 2011年
- 现代藏文字典序是按照传统藏文字的构造序而建立的排序方法,遵循严格的书面藏语构造规则.藏文编码中国国家标准正式发布实施后,藏文字符自身构造的复杂性、大量梵音藏文等他族语字符以及科技字符的存在,使得Microsoft office环境下藏文的序性问题一直未得到很好的解决.本文提出并实现了一种基于VBA的藏文音节在Word应用程序中的排序方法,方法简单、容易实现,解决了藏文音节在Microsoft office环境中排序的问题.
- 钟小莉黄鹤鸣
- 关键词:藏文排序UNICODE编码
- 面向情感变化检测的语音情感数据库被引量:1
- 2021年
- 语音情感数据库是进行语音情感识别研究的基础。多样化、大规模、高质量的优质的语音情感数据库对语音情感识别系统性能的提升具有重要作用。研究首先全面地分析了目前国内外使用最广泛的语音情感数据库,并将其归纳为单模态语音情感数据库和多模态语音情感数据库;然后通过实验将不同数据库上所取得的最优性能进行对比,选出可推荐的优质语音情感数据库,为相关研究人员提供有价值的学术参考;最后对未来语音情感数据库的建立提出几点建议。
- 张会云黄鹤鸣李伟
- 关键词:语音情感识别语音可懂度人机交互
- 基于ISO/IEC 10646标准的藏文编码转换的设计与实现被引量:2
- 2009年
- 目前,国内少数民族地区的书报印刷行业大多使用北大方正、华光藏文排版系统。这些软件的编码各异,致使有限的藏文资源无法实现交换和共享,造成这种现象的原因是各种软件编码体系不一致。解决这个问题的根本途径是将各种不同体系的藏文编码转换为符合国际标准的编码。该文以华光Windows藏文字符编码为例,首先对每个藏文字符进行构字分析,然后采用分表分组技术构造出每个字符符合ISO/IEC 10646标准的编码序列,最后采用hash技术优化查询算法,实现非标准的藏文字符编码向标准编码序列转换。
- 张青黄鹤鸣章登义
- 关键词:计算机应用中文信息处理藏文
- 脱机手写藏文字符识别研究
- 脱机手写藏文字符识别输入是藏文计算机自动识别输入的一种重要方式,它能克服键盘输入方式的不足,能实现藏文的计算机智能输入,但检索发现此项研究在国内外未见公开报道。本文建立了首个脱机手写藏文字符识别系统,主要研究内容包括建立...
- 黄鹤鸣
- 关键词:字符识别特征提取数据库
- 文献传递
- 基于排序的现代藏文音节判定被引量:13
- 2009年
- 音节类型的程序判定是藏文字典排序的基础。建立了基于结构的现代藏文音节判定规则,并且将不满足该规则的藏文字母组合看作梵音藏文音节。首先,根据编码序列中占位编码、不占位编码的个数以及相互间的位置关系,判断一个编码序列是否满足现代藏文音节结构,如果满足则进一步确定各个编码(字母)在音节结构中的位置;其次,根据正字法对各个位置上字母的约束来判断这个编码序列是否表示一个现代藏文音节;最后,选取了一些有代表性的编码序列来测试算法的有效性。
- 黄鹤鸣达飞鹏
- 关键词:现代藏文排序音节结构
- 融合多尺度特征与上下文信息的语音增强方法
- 2024年
- 在语音增强中,常用自编码器结构自动提取特征,但这样得到的特征单一或者冗余且不能较好地捕获语音信号的上下文依赖关系。因此,提出一种融合多尺度特征和上下文信息的语音增强方法MSF-CI。首先,利用多尺度卷积块提取语音信号的多尺度特征,解决特征单一问题;其次,利用注意力机制关注所提取特征的空间与通道关键信息,解决特征冗余问题;最后,使用门控卷积循环神经网络学习语音信号中跨度较长的上下文依赖关系,并通过门控线性单元提高该网络的非线性学习能力,从而提高模型的泛化性。实验结果表明,MSF-CI在低信噪比和不同噪声环境下增强语音信号的语音感知质量、短时客观可懂度等多个指标上均优于GRN、DPT-FSNet、U-Net等同类的单通道语音增强模型。在信噪比为0 dB时,该方法的平均语音感知质量和平均语音客观可懂度达到1.49和0.761。在构建的安多藏语语料库上验证模型的泛化性,平均语音感知质量和平均语音客观可懂度相对于噪声提高了20.7%和11.3%,MSF-CI模型不仅可以提升语音的质量与可理解度,而且具有较优的泛化性。
- 更藏措毛黄鹤鸣杨毅杰
- 关键词:语音增强多尺度特征