谢娜娜
- 作品数:3 被引量:29H指数:3
- 供职机构:重庆大学计算机学院更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 不均衡数据集上文本分类方法研究被引量:11
- 2013年
- 文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CHI统计特征选择方法予以改进。在数据层上,采用数据重取样方法对不均衡训练语料的不平衡性过滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。
- 谢娜娜房斌吴磊
- 关键词:文本分类不均衡数据集
- 融合过抽样和欠抽样的不平衡数据重抽样方法被引量:15
- 2013年
- 在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多,只探讨利用重抽样方法对不平衡数据进行预处理来提高分类效果的方法。数据抽样算法有很多,但可以归为两大类:过抽样和欠抽样。针对二分类问题提出了四种融合过抽样和欠抽样算法的重抽样方法:BSM+Tomek、BSM+ENN、CBOS+Tomek和CBOS+ENN,并且与另外十种经典的重抽样算法做了大量的对比实验,实验证明提出的四种预处理算法在多种评价指标下提高了不平衡数据的分类效果。
- 吴磊房斌刁丽萍陈静谢娜娜
- 关键词:不平衡数据LINKS
- 基于不均衡数据集的文本分类算法研究
- 随着计算机网络技术的不断发展,电子文档逐渐成为人们获取文本信息的主要渠道。网络信息的多样性和文档的杂乱无章性对用户快速准确获取所需信息提出了巨大的挑战。文本分类是信息检索中对文档进行组织和整理的重要技术,然而不同于文本分...
- 谢娜娜
- 关键词:不均衡数据集文本分类算法向量空间模型
- 文献传递