搜索到91篇“ 垃圾网页“的相关文章
基于单页语义特征的垃圾网页检测
2023年
为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Vec词向量和词移距离计算3个单页语义相似度特征;然后将单页语义相似度特征融合单页统计特征,使用随机森林等分类算法构建分类模型进行垃圾网页检测。实验结果表明,基于单页内容提取语义特征融合单页统计特征进行分类的AUC值达到88.0%,比对照方法提高4%左右。
陈木生高斐吴俊华
关键词:特征提取
基于单页特征提取和混合集成分类的垃圾网页检测
垃圾网页是指那些通过非法手段提升排名的网页。互联网中之所以会出现垃圾网页,是因为垃圾网页可以以较低的成本获得高额的利益,于是网页拥有者便通过各种方法制作垃圾网页来获得丰厚的利益。由于垃圾网页给搜索引擎公司、互联网用户带来...
高斐
基于链接与主题相关度的垃圾网页检测算法研究
俗话说“近朱者赤,近墨者黑”,这句话在互联网环境中同样适用。网页之间可以通过相互链接来提升自身的可信度,一些垃圾网页通过恶意欺骗来提升自身可信度,影响用户体验,给搜索引擎和其他合法网站带来巨大经济损失,污染互联网环境。介...
王晶晶
关键词:垃圾网页网页排名PAGERANK搜索引擎
一种基于非概率模型的垃圾网页降级方法
本发明公开一种基于非概率模型的垃圾网页降级方法,包括通过网络爬虫爬取网页并对其内容进行解析,获取网页URL列表;根据获得的URL列表计算得到节点邻接表;根据节点邻接表构建节点网络图;采用PageRank算法对节点网络图中...
不公告发明人
文献传递
复杂网络中节点重要性在垃圾网页检测中的应用方法
一种复杂网络中节点重要性在垃圾网页检测中的应用方法:数据预处理,是把已知的特征数据进行规范化,规范化后使用PCA算法进行特征提取,减少特征维数,使新的空间维度低于原特征空间;计算网页之间链接的权重与网页的介数指标,并将介...
罗韬刘伟喻梅徐天一赵满坤郭佳
文献传递
改进样本加权K近邻分类器用于垃圾网页检测被引量:1
2021年
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。
吴俊华谭博觉高切陈木生
关键词:K近邻不平衡数据分类
一种垃圾网页检测方法
本发明公开了一种垃圾网页检测方法,包括以下步骤:一:对数据集进行K‑Means算法,将全部对象n用数据集D存储;二:对数据集D进行IPR计算,并将IPR值按照从高到低顺序进行排序;三:在数据集中选取IPR值最大和最小的网...
张亚平马舒婕于瑞国喻梅王建荣孟莹
文献传递
一种垃圾网页识别方法
本发明涉及一种垃圾网页识别方法,从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,统计训练集中每个训练网页对应的有向图三角的数目,将得到的有向图三角特征与网页中包含的链接特征、链接组合...
董一鸿金宏桥李龙洋
文献传递
一种基于内容的垃圾网页检测方法及其检测装置
本发明公开了一种基于内容的垃圾网页检测方法及其检测装置,方法包括:计算所有网页与种子垃圾网页的内容最大相似度值,生成相似度集合;利用PageRank算法对所有网页进行降序排序;基于排序结果,从相似度集合中查寻网页与种子垃...
喻梅孟莹于瑞国周静雷霆田逸尘
文献传递
基于网页结构与语言特征的垃圾网页链接检测方法
2020年
现有的垃圾网站检测方法主要针对自建的垃圾网站,对于通过入侵正常网站注入垃圾网络链接的检测效率不高.本文提出一种基于网页结构与文本多维特征的检测框架,该框架将网页进行分块处理.通过计算优势率的方法提取内容特征,根据标签数、属性键和属性值利用独热率的方法提取结构特征.使用机器学习算法进行训练并得到检测模型,进而有效地检测垃圾网站链接.同时,将本文的检测方法与基于内容分析的检测算法和黑名单匹配算法进行对比,本文提出的方法检测准确率最高有13%的提高.
杨望江咏涵张三峰

相关作者

张化祥
作品数:246被引量:341H指数:9
供职机构:山东师范大学
研究主题:图像 聚类 模态 网络 多视图
孟莹
作品数:37被引量:0H指数:0
供职机构:天津大学
研究主题:反应精馏 反应精馏塔 甲氧基 产品精制 二甲醚合成
贾志洋
作品数:32被引量:77H指数:5
供职机构:中铁检验认证中心
研究主题:搜索引擎 垃圾网页 推荐系统 旅游管理 智慧旅游
喻梅
作品数:186被引量:106H指数:7
供职机构:天津大学
研究主题:遥感图像 网络 超声影像 相似度 文本
高爽
作品数:11被引量:16H指数:2
供职机构:山东师范大学
研究主题:多视图 垃圾网页 处理垃圾 超链接 二维视图