陶永才 作品数:71 被引量:244 H指数:8 供职机构: 郑州大学 更多>> 发文基金: 河南省教育厅科学技术研究重点项目 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 自然科学总论 更多>>
一种改进的MapReduce互信息文本特征选择机制 被引量:7 2018年 文本分类是数据挖掘的重要环节,而特征选择又是文本分类的核心步骤,互信息方法是常用的特征选择评价函数,但该方法过于简单,分类精度相对较低.基于此,本文提出一种基于MapReduce的互信息文本特征选择机制,一方面对传统的互信息计算公式进行改进,并且引入熵的思想对公式计算加以修正,使特征词选择更加得当,从而提高后期分类精度;另一方面引入MapReduce技术,利用其处理大规模数据的优势,缩短文本训练和分类的过程.实验表明基于MapReduce的互信息文本特征选择机制可以显著提高文本分类的精度,而且明显提升执行效率. 陶永才 赵国桦 石磊 卫琳关键词:文本分类 特征提取 互信息 云计算 MAPREDUCE Web页面流行度模拟器的设计与实现 被引量:3 2005年 研究Web访问特征是有效进行Web缓存管理的基础。该文使用Zipf第一法则和第二法则建立数学模型,分别模拟Web页面高频区及低频区流行度特征,设计并实现了一个Web日志模拟生成器POPSIM。这种模拟器不仅可以模拟生成Web页面访问日志,而且具有很大的灵活性,为进一步研究Web缓存技术和预取技术提供依据。 陶永才 石磊关键词:WEB缓存 基于语义相似度与信息量的Web服务标签优化 被引量:1 2015年 Web服务标签是用户向Web服务添加的描述其功能或属性的关键词,用来提高服务相似度计算的准确率进而改善服务发现、服务组合和服务聚类等.目前不准确甚至错误的无效标签比例较高,影响了服务相似度计算的准确率.为此,提出一个Web服务标签优化模型WS-TOM,分析了Web上已有WSDL文档,给出一种考虑到编程风格和命名规范的特征提取方法,用于Web服务相似度计算;然后综合标签与WSDL的语义相似度和标签的信息量来对标签进行排名,降低不准确标签的影响.实验结果及分析验证了WS-TOM模型能够提高Web服务相似度计算的准确率. 石磊 谢涛 曹仰杰 卫琳 陶永才关键词:WEB服务 相似度计算 标签 语义相似度 一种结合LSTM和集成算法的文本校对模型 被引量:11 2020年 伴随着互联网的飞速发展,各行各业产生了大量的电子文本数据,但是这些文本经常存在语义错误,数据质量良莠不齐,如何提高电子文本的质量是亟待解决的难题.本文设计一种基于集成算法和长短时记忆网络的集成模型,提高语义特征检测和校对的准确性.主要工作分为三部分:(1)使用神经网络和HowNet学习词语-义原之间的搭配关系;(2)将抽象化信息输入至长短时记忆网络集成模型,预测语义搭配关系;(3)结合模糊匹配方法,依据聚合度对预测结果投票并排序,将排名靠前的结果作为校对建议输出.实验结果显示,本文提出的校对模型和算法与其他文献相比在检错准确率和校对准确率上分别提高了1.8%和2.3%. 陶永才 吴文乐 海朝阳 石磊 卫琳关键词:文本校对 自注意力机制和BiGRU相结合的文本分类研究 被引量:3 2022年 在文本分类任务中,双向门控循环单元(Bidirectional Gated Recurrent Unit,BiGRU)被广泛使用,其不仅能提取文本上下文语义信息和长距离依赖关系,还可以避免出现传统RNN中存在的梯度弥散或爆炸问题.然而,BiGRU在捕获文本局部特征方面存在不足.本文提出一种基于自注意力和双向门控循环单元的文本分类模型(Self-attention and Bidirectional-gated-recurrent Unit based Text Classification,SBUTC),利用自注意力机制关注对分类贡献较大的文本部分,使用含有不同尺寸卷积核的多通道CNN提取不同粒度的文本局部特征;通过含有跳层连接结构的堆叠BiGRU网络提取文本间上下文语义信息和长距离依赖关系;将CNN和BiGRU的输出进行特征融合,训练分类器对不同类型的文本信息进行分类.在ChnSentiCorp数据集和THUCNews_Title数据集上的对比实验结果表明,本文提出的模型在分类准确率和F1值上优于其他对比模型. 石磊 王明宇 宋哲理 陶永才 陶永才 卫琳 范雨欣关键词:文本分类 卷积神经网络 基于时间序列预测的自适应失效检测模型 被引量:1 2014年 失效检测是实现分布式系统高可用性的重要保障技术,其本质属于非线性时间序列预测问题.最小二乘支持向量回归算法是非线性时间序列预测领域的有效方法之一,在小样本空间和预测精度等方面有一定优势.传统失效检测算法基于概率统计模型计算下一心跳的到达时间,受限于某种概率分布且需要较大数据量,存在一定局限性.实际应用中常面临小样本空间,为此本文提出FD-LSSVR(Failure Detection-Least Squares Sport Vector Regression)模型并进行了讨论.针对现有自适应失效检测算法需考虑离群值这一问题,模型引入聚类分析法过滤对预测结果影响较大的离群值.实验结果表明,FD-LSSVR模型在检测时间和准确度方面均有较好表现,可用以缓解子网络延迟对失效检测的影响. 石磊 景京 卫琳 陶永才 曹仰杰关键词:时间序列预测 CGGA:一种CNN与并行门控机制混合的文本分类模型 被引量:5 2021年 针对中文文本分类准确率低、单一的卷积神经网络模型难以提取多方面特征的问题,本文提出一种基于CNN的并行门控机制的混合文本分类模型——CGGA(Convolutional Neural Network with parallel gating unit and attention mechanism).利用卷积提取文本的局部特征,并加入双向门控循环单元对数据进行上下文数据建模,提取关系特征,同时,引入门控Tanh-ReLU单元进行进一步的特征筛选,从而控制信息向下层流动的力度,并且减轻梯度弥散,提高模型分类准确率.最后,使用多头注意力机制进行权重更新计算,以提高在相应文本类别上的输出,进而优化模型分类性能.实验结果显示,本文提出的文本分类模型和分类算法,在THUCNews数据集和搜狐数据集上,比基线模型的宏平均精确率分别提高了2.24%、6.78%. 马建红 刘亚培 刘言东 陶永才 石磊 卫琳关键词:文本分类 Nesterov动量迭代降噪对抗攻击算法NMI-FGSM&Whey 2021年 目前基于深度神经网络的图像分类器易受到对抗样本的攻击,而对抗样本往往是某种算法攻击原始样本所生成的特定图像.本文针对攻击算法的弱鲁棒性及低隐蔽性提出一种基于Nesterov-Momentum动量迭代以及Whey优化的NMI-FGSM&Whey攻击算法.首先在一般动量迭代攻击中加入Nesterov项,其次于生成对抗样本之后对图像实行Whey优化,在保证攻击性能的情况下有效地去除多余噪声.实验部分以Inception-v3、Resnet-152和IncRes-v2三种分类模型为基础,结合单模型攻击和融合模型攻击对比了多种攻击方法.实验结果表明所提算法在白盒模式中展现出较强的攻击力,并在有效减少噪声强度的同时于黑盒情景中呈现出较好的迁移性能. 陶永才 李子晨 石育澄 石磊 卫琳关键词:图像分类 IRT模型参数估计的GRNN方法研究 被引量:2 2019年 项目反应理论所估计出的项目参数不受被试者能力分布的影响,即具有参数不变性的优点.项目反应理论中的参数估计是应用项目反应理论的前提,常用参数估计方法有极大似然法、贝叶斯法等建立在数理统计基础上的方法,一般要求较大的样本,对于小样本缺乏合适的参数估计方法.本文提出一种广义回归神经网络(GRNN)的参数估计方法,以二值记分的测验结果作为样本,通过实验与数理统计方法进行对比,分析不同样本量下参数估计结果的误差.与传统数理统计方法相比,基于GRNN参数估计方法在小样本下对参数估计的精度较高. 陶永才 贾圣杰 石磊 卫琳关键词:广义回归神经网络 项目反应理论 参数估计 云环境下基于二维节点矩阵的分级多表连接 2014年 随着"大数据"时代的到来,分布式数据处理得到了广泛的应用和发展.在基于云计算的海量数据处理中,复杂处理要求逐渐增多,数据分析通常需要跨越多个数据集,因此亟需高效的多表连接机制.现有的基于MapReduce的多表连接机制多采用串行级联方式实现多个不同数据集连接,操作灵活但效率不高.本文在分析现有并行连接模型的基础上,提出基于二维节点矩阵的分级多表连接模型TD-HMJ.TD-HMJ在一次Map过程中处理全部连接属性,Reduce过程建立二维节点矩阵实现多组3(或2)表并行连接,并通过多级Reduce过程实现多组间连接.理论分析和实验表明TD-HMJ减少了数据传输量,缩短了多表连接时间,提高了连接效率. 陶永才 周梦雪 石磊 卫琳 曹仰杰关键词:MAPREDUCE 海量数据 云计算 多表连接