国家自然科学基金(60773048) 作品数:13 被引量:40 H指数:4 相关作者: 范明 郭华平 叶阳东 职为梅 陈松峰 更多>> 相关机构: 郑州大学 北京交通大学 更多>> 发文基金: 国家自然科学基金 国家科技支撑计划 湖南省教育厅科研基金 更多>> 相关领域: 自动化与计算机技术 电气工程 更多>>
样本大小对非平衡数据分类的影响 2010年 探讨了影响稀有类分类的各个因素,针对影响稀有类中的一个因素——样本大小对稀有类的影响进行了研究。 职为梅 范明 叶阳东关键词:稀有类 组合分类器 利用PCA和AdaBoost建立基于贝叶斯的组合分类器 被引量:7 2010年 提出了一种使用基于贝叶斯的基分类器建立组合分类器的新方法PCABoost。本方法在创建训练样本时,随机地将特征集划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将全部的训练数据映射到新的特征空间作为新的训练集。通过不同的变换生成不同的特征空间,从而产生若干个有差异的训练集。在每一个新的训练集上利用AdaBoost建立一组基于贝叶斯的逐渐提升的分类器(即一个分类器组),这样就建立了若干个有差异的分类器组,然后在每个分类器组内部通过加权投票产生一个预测,再把每个组的预测通过投票来产生组合分类器的分类结果,最终建立一个具有两层组合的组合分类器。从UCI标准数据集中随机选取30个数据集进行实验。结果表明,本算法不仅能够显著提高基于贝叶斯的分类器的分类性能,而且与Rotation Forest和AdaBoost等组合方法相比,在大部分数据集上都具有更高的分类准确率。 陈松峰 范明关键词:组合分类器 主成分分析 ADABOOST 贝叶斯 抽样技术和CBES分类非平衡数据集 2013年 CBES是面向非平衡数据集分类的组合选择方法。相关的实验表明,CBES方法能大幅度提升基分类器的泛化能力。已有研究表明,抽样方法能有效提高分类器在非平衡数据集分类上的性能。因此,巧妙地将抽样技术应用到CBES方法中,进而提出基于抽样的CBES方法(SCBES),以期进一步提高CBES在稀有类上的性能。大量的实验表明,巧妙地使用抽样方法能进一步提高CBES方法在非平衡数据集分类上的性能。 职为梅 郭华平 范明关键词:非平衡数据集 组合分类器 抽样技术 一种基于束状搜索的组合分类器修剪方法 被引量:2 2011年 以现有组合分类器修剪方法为基础,从增大搜索空间的角度出发,提出一种基于束状搜索的组合分类器修剪方法,在每一步增加或删除一个基分类器时都保存最优的前k个组合。该方法既保持了爬山搜索算法的高效剪枝特性,又能有效减小其过快收敛到局部最优解的可能性,使修剪得到的组合基分类器更接近于全局最优。与传统组合分类器修剪方法的对比结果表明,该方法修剪所得的组合分类器具有更高的分类准确率,并且组合规模也有所降低。 王亚松 郭华平 范明一种改进的基于最大流的Web社区挖掘算法 被引量:3 2009年 针对原始最大流算法给每条边的边容量分配一个常量值,在社区质量及成员数量上造成的问题,提出了一种改进的Web社区挖掘算法。该算法考虑不同边的重要性差异,将加权PageRank算法中页面的重要度转化为衡量页面之间边重要性的传递概率值,并使用该值对边容量进行赋值。实验结果表明,改进的算法有效地提高了Web社区的质量。 张金增 范明关键词:WEB社区 最大流算法 邮件社区划分和小世界网络 被引量:6 2008年 讨论了邮件社区的划分和邮件社区的性质,提出一种基于社区中心动态调整的邮件社区划分算法ACCD。算法采用基于邮箱通信行为特征的余弦相似度评估邮箱之间的相似性,并通过社区中心动态调整的方法进行邮件社区的划分。在实际数据集上的实验表明,在较长一段时间内,一个较大的局域网内部的邮件网络呈现显著的小世界网络特征,同时也表明了邮件社区划分算法的合理性。 李军利 赵红领 范明关键词:数据挖掘 社会网络 小世界网络 一种基于EVS相似度的邮件社区聚类方法 2010年 聚类方法的核心是如何度量事物间的邻近性。介绍了邮件特征的向量表示形式、构建了邮件特征矩阵,并使用变形后的极值分布函数模型拟合了邮件间通信特征信息;在此基础上提出了一个新的邻近性度量方法(ex-treme value distribution similarity,EVS),用以指导邮件社区划分;使用微聚类-宏聚类邮件社区划分算法验证了该方法的有效性。实验表明,在测试数据集上,相比余弦、PCC等经典的邻近性度量方法,以EVS作为划分依据的邮件社区划分算法能够更加有效地发现高质量的邮件社区。 王芳 郭华平 牛常勇 范明关键词:社会网络 极值分布 非平衡数据集分类方法探讨 被引量:9 2012年 由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。 职为梅 郭华平 范明 叶阳东关键词:非平衡数据集 抽样技术 代价敏感学习 基于基本显露模式的电子邮件分类与过滤技术 被引量:3 2008年 垃圾邮件问题日益严重,受到研究人员的广泛关注.基于内容分类与过滤垃圾邮件是当前解决垃圾邮件问题的主流技术之一.本文对电子邮件内容做了深入的研究,提出了一种更适合垃圾邮件分类的新的特征提取方法,并将新的特征提取方法与基于essential emerging pattern(eEP)的分类算法CeEP相结合,应用于垃圾邮件检测,实现了一种基于eEP的电子邮件分类与过滤算法(thee-mail categorization and filtering technology based on eEP,ECFEP).实验表明,新的特征提取方法与CeEP分类算法的结合是一种十分高效的分类方法,算法ECFEP的分类效率均高于目前几种较好的分类算法. 李艳 范明关键词:电子邮件分类 特征提取 基本显露模式 面向范畴类型数据的sIB算法 被引量:5 2009年 本文针对sIB算法仅适用于共现数据的问题,提出了一种能够自动进行范畴类型数据分析的sIB算法:CD-sIB.该算法根据范畴类型数据的离散化表示、不同属性值有限的特征,进行数据的属性的拓展和二元化处理,基于属性值的出现进行X,Y的联合分布的计算,使得sIB算法可有效应用于范畴类型数据的分析.实验结果表明:CD-sIB算法相对于现有的面向范畴类型数据聚类模式分析的算法GAClust和K-modes具有明显的优势;CD-sIB算法在进行数据属性概化程度高、类数据分布相对平衡的范畴类型数据的分析中,在效率和精确度方面均很突出. 叶阳东 何锡点 贾利民关键词:IB理论 SIB算法 概化 聚类