搜索到118篇“ 中文垃圾邮件“的相关文章
一种基于内容和ERNIE3.0-CapsNet的中文垃圾邮件识别方法
2024年
针对目前中文垃圾邮件识别方法中的深度学习检测方法词向量表示不足和特征提取丰富度欠缺的问题,提出融合ERNIE3.0预训练模型的胶囊神经网络改进识别模型——ERNIE3.0-CapsNet.对于中文垃圾邮件内容文本,利用ERNIE3.0生成对于知识具备优异记忆和推理能力且语义丰富的词向量矩阵,再使用胶囊神经网络进行特征提取及分类,对于胶囊神经网络,改进了结构并使用GELU作为其动态路由的激活函数,设计了5组同类模型和4组激活函数的对比实验.在开源的TREC06C中文邮件数据集上,提出的ERNIE3.0-CapsNet模型效果在总体上表现突出,其准确率达到99.45%.实验结果表明,ERNIE3.0-CapsNet优于ERNIE3.0-TextCNN,ERNIE3.0-RNN等方法,证明了该模型在中文垃圾邮件识别效果的有效性和优异性.
单晨棱张新有张新有冯力
关键词:中文垃圾邮件激活函数文本分类
不同长度下中文垃圾邮件分类模型的研究被引量:1
2022年
针对日益泛滥的垃圾邮件问题,本文使用多种算法对不同长度下中文垃圾邮件分类模型进行比较研究。首先,使用朴素贝叶斯算法对邮件数据集进行训练和测试;然后,从邮件数据集中筛选出三种不同文本长度的数据集和两种不同大小样本量的数据集,组成五个实验样本集;最后分别使用多种传统机器学习模型、神经网络模型和预训练模型在五个实验样本集上进行建模比较。实验结果表明,预训练模型ALBERT最适合分类句子长度的中文垃圾邮件,传统机器学习模型SVM最适合分类段落长度的中文垃圾邮件,神经网络模型TextRCNN最适合分类篇章长度的中文垃圾邮件。实验结果还显示,神经网络模型TextRNN和预训练模型RoBERTa不适用于小样本数据。
顾孟钧冯文舟陈中兵
关键词:中文垃圾邮件文本分类
基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法
本发明请求保护一种基于混沌粒子群优化CNN网络的中文垃圾邮件识别方法,首先使用分词器对中文垃圾邮件数据集进行分词、去停用词等预处理;其次采用Word2vec模型获取词向量,通过对词向量求和取平均值获得中文垃圾邮件的文本向...
唐贤伦万亚利熊德意李佳歆林文星魏畅昌泉伍亚明
文献传递
基于SVM的中文垃圾邮件预测系统研究被引量:5
2020年
为有效拦截、过滤垃圾邮件,本文研究基于SVM的中文垃圾邮件过滤技术。经测试实验表明,该方法能够有效的预测中文垃圾邮件,在准确率、精度、召回率方面表现较优。
徐娟卞良
关键词:支持向量机算法中文分词
基于堆叠式降噪自编码器的中文垃圾邮件过滤被引量:3
2020年
针对传统特征选择方法在中文垃圾邮件过滤处理中出现的特征项提取不明确、过滤精度低的问题,提出了一种基于堆叠式降噪自编码器(Stacked Denoising Autoencoder,SDA)的中文垃圾邮件过滤方法.首先,对处理后的语料使用Word2vec工具集中的连续词袋(Continuous Bag-of-Words,CBOW)模型进行训练,得到对应的词向量;接着以词向量作为输入,采用堆叠式降噪自编码器深度网络以无监督学习方式对其进行有效的特征提取;最后,采用改进的Softmax分类器对网络进行有监督微调.该方法在TREC06C数据集上进行测试,将准确率、精确率、召回率、更能衡量二分类效果的f1得分值作为实验评价标准,实验结果表明,相比于贝叶斯模型、KNN分类算法、SVM以及传统的堆叠式降噪自编码器,方法的准确率、精确率、召回率及f1得分值达到了93.5%、94.8%、92%和93.2%,在中文垃圾邮件过滤中拥有更好的二分类效果和健壮性.
张柳艳聂云峰段生月张贵昌
关键词:中文垃圾邮件无监督学习
基于SDA的中文垃圾邮件过滤研究
随着互联网技术的高速发展,电子邮件以其成本低廉、传输便利的优势在互联网上被广泛使用,逐步成为人们重要的一种交流通信工具。但是在商业利益的驱动下,企业和个人经常通过群发邮件进行营销,使得用户收到的垃圾邮件数量远远超于正常邮...
张柳艳
关键词:垃圾邮件
Windows下SpamAssassin对中文垃圾邮件的过滤研究
2019年
英文垃圾邮件过滤效果良好的开源软件Spam Assassin,在Windows下的应用研究较少。在Windows下安装配置Spa-m Assassin,针对中文邮件添加规则与学习贝叶斯库,基于真实邮件测试,取得了良好过滤效果。
李玉峰米晓琴杨婷
关键词:WINDOWS中文垃圾邮件
基于CPSO优化CNN的中文垃圾邮件分类研究
互联网技术飞速的发展,电子邮件作为互联网技术应用最广的服务之一,为人们的工作与生活带来了更加便捷的沟通与交流方式。与此同时,未经请求的大量垃圾邮件,充斥着人们的电子邮箱,不仅消耗大量的公共资源,而且给人们带来许多有害信息...
万亚利
关键词:卷积神经网络粒子群优化中文垃圾邮件
文献传递
基于贝叶斯算法的中文垃圾邮件过滤系统研究被引量:15
2018年
目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提取算法,增加了特征节点的表达能力,实现了特征降维。针对分类模型特征局限和属性间条件独立性假设不成立问题,提出一种基于GWO_GA(grey wolf optimizer-genetic algorithm)结构学习算法的3层贝叶斯网络模型,放松了条件独立性假设,增加了特征多样性,最终形成基于中心词扩展的TF-IDF特征提取及GWO_GA结构学习的3层贝叶斯算法。通过大量中文邮件数据验证,算法可明显提高中文垃圾邮件过滤效果。
刘浩然丁攀郭长江郭长江崔静闯
关键词:贝叶斯网络TF-IDF遗传算法中文垃圾邮件过滤
一种基于规则的交互式中文垃圾邮件过滤方法
一种基于规则的交互式中文垃圾邮件过滤方法。包括步骤:(1)从中文垃圾邮件样本中提取中文垃圾邮件过滤规则;(2)用改进遗传算法训练得到规则的最佳权重分布;(3)加强用户和服务器之间的交互,收集并分析用户反馈的漏判和误判信息...
刘武唐再良文永革赵永驰
文献传递

相关作者

何晓宁
作品数:3被引量:9H指数:1
供职机构:哈尔滨工业大学
研究主题:N元文法 中文垃圾邮件 逻辑回归模型 垃圾邮件过滤器 垃圾邮件过滤
齐浩亮
作品数:67被引量:54H指数:4
供职机构:黑龙江工程学院
研究主题:信息检索 垃圾邮件过滤 逻辑回归 N元文法 信息过滤
张贤龙
作品数:2被引量:1H指数:1
供职机构:华东交通大学信息工程学院
研究主题:垃圾邮件 逻辑回归 中文垃圾邮件过滤 中文 基于支持向量机
白飞云
作品数:2被引量:1H指数:1
供职机构:西安理工大学自动化与信息工程学院
研究主题:评价指标 垃圾邮件过滤 中文垃圾邮件 特征提取算法 特征提取
王斌君
作品数:88被引量:303H指数:10
供职机构:中国人民公安大学
研究主题:面向对象 PETRI网 软件工程 网络 信息化