邵曦
- 作品数:73 被引量:82H指数:5
- 供职机构:南京邮电大学更多>>
- 发文基金:国家自然科学基金教育部留学回国人员科研启动基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术电子电信文化科学艺术更多>>
- 基于时频谱遮蔽的待修复语音的判别与修复方法、系统
- 本发明公开了基于时频谱遮蔽的待修复语音的判别与修复方法、系统,该方法包括对原始语音进行处理,并应用掩码分别形成初始训练集的对照数据和性能测试数据集;提取原始语音和对照数据的频谱特征,将时域信号转化为频域信息,分别保存为原...
- 邵曦于松楠丁卓沈昕泽郑瑞莹吴雅心
- 基于关键段和小波包最优基的流行歌曲索引被引量:1
- 2012年
- 为了对大量流行歌曲数据进行有效索引,提出了基于流行歌曲关键段和小波包最优基的索引方法。首先对流行歌曲关键段提取小波包最优基,其次分别计算最优基中各重要结点所有系数的能量作为关键段的特征向量,然后根据重要结点个数找到相应的子数据库,最后采用均方误差指标在子数据库中进行数据匹配,实现流行歌曲的索引。实验中对不同流行歌曲关键段进行了索引实验,验证了该方法的可行性。实验结果表明该方法充分考虑到流行歌曲的特点,搜索精度比较高。
- 张翠芳邵曦
- 关键词:流行歌曲索引
- 一种基于混合聚焦注意力机制的图文匹配方法及系统
- 本发明公开了一种基于混合聚焦注意力机制的图文匹配方法及系统,方法包括以下步骤:步骤S1.提取图像中显著区域的特征以及自然语言描述中各个单词的特征;步骤S2.利用聚焦的跨模态注意力机制自适应地调整注意力机制对不同图片的温度...
- 鲍秉坤叶俊杰邵曦
- 一种基于字典学习的无监督异常声检测方法和装置
- 本发明公开了一种基于字典学习的无监督异常声检测方法和装置,包括:生成训练集和测试集,训练集中只有正常运行状态下的机械声音频样本;对训练集中的样本数据进行预处理,分隔得到若干个音频帧;对音频帧进行特征提取,采用K‑SVD算...
- 苏新萍王晨邵曦姚瑶邱慧贞
- 基于自编码器的无监督机器异常声检测被引量:5
- 2021年
- 针对机器异常声音很少发生并且种类多、不稳定的问题,提出了一种基于自编码器的无监督机器异常声检测方法.首先,利用正常声音的频谱特征训练自编码器,对正常声音的特征进行重建;然后,通过自编码器重建待测音频的特征,利用待测音频的特征和重建的特征两者之间的误差值进行异常检测.采用DCASE2020 Challenge Task2数据集的实验结果表明,与Task2的基线系统相比,该方法在保证良好的分类准确率的同时,AUC值明显提高,能够提升对机器异常声音的检测效果.
- 张晨旭李圣辰邵曦
- 关键词:异常检测
- 基于字典学习的无监督机器异常声检测被引量:1
- 2021年
- 机器异常声检测是识别目标机器发出的声音是正常声音还是异常声音的任务,在机器生产中十分重要.而真实工厂中,实际的异常声音很少发生并且高度多样化,所以很难收集到详尽的异常声.针对训练集异常数据少的问题,本文提出了基于字典学习算法的无监督机器异常声检测系统,并通过单类支持向量机寻找异常点,可以在仅有正常声音样本作为训练数据的条件下有效检测未知的异常声音.在音频特征选择方面,我们选择了16个机械领域经典的传统特征(如方差、峭度等),并将音频分帧处理,以获取更多的音频特征信息.与DCASE2020 Challenge Task2中运用对数Mel谱作为特征,自编码器作为训练分类器的基线系统进行对比,我们的系统对部分机器的识别效果得到了显著提升.
- 姚瑶李圣辰邵曦
- 关键词:字典学习异常检测单类支持向量机
- 基于古典音乐的Internet分组差错隐藏方案
- 2012年
- 常规的Internet分组差错采用错包丢弃或邻包重复,对注重实时性的VoIP是简洁而有效的。作为无噪音的注重乐感和旋律的古典音乐,则更注重人耳对音乐的个体感知。文中给出了Internet流媒体服务器传输古典音乐场景,提出一种新的分组丢失隐藏(PEC)方案,不仅解决单个分组丢失恢复,还解决带音符起点的分组丢失及两个以上连续分组丢失恢复。发端部分采用K-Means算法对音乐信号分簇,结合音符起点位置信息生成发送者报告以TCP信道先导可靠传输;收端部分中对4种分组差错可能利用发送者报告进行信号重构。专业音乐人士的聆听评估测试验证了文中PEC方案较常规具有更高的MOS分及乐感体验。
- 林晓勇邵曦糜正琨
- 基于音频信号转录的线上乐器对战平台和排行榜系统
- 本发明公开了一种基于音频信号转录的线上乐器对战平台和排行榜系统,包括智能终端和服务器端,智能终端通过无线通信网络与服务器端通信;智能终端包括中央处理器、存储器、音频信号收集与转录单元以及演奏评分单元;服务器端包括对战单元...
- 朱欣岳邵曦
- 基于自注意力机制的多模态场景分类被引量:3
- 2023年
- 针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。
- 常月侯元波谭奕舟李圣辰邵曦
- 关键词:多模态融合
- 基于熵的非参数估计的音乐声纹提取方法
- 2012年
- 提出了一种音乐片段的声纹提取方法,通过这种方法可以得到更具有鲁棒性的声纹特征,利用声纹,即使对音乐名称不确定,也能够找到喜欢的音乐。首先对音乐信号进行预处理,得到各分帧序列的各个子带;对于每一个子带,利用Parzen窗函数法估计它的概率分布函数;然后利用信息论中香农公式的相关算法计算它的熵,最后利用差分算法得出它的声纹。结果显示非参数方法比参数方法具有更低的误码率和更好的识别率。由此得出非参数方法抗各种失真的效果更好。
- 邵曦周传平
- 关键词:非参数估计