国家高技术研究发展计划(2012ZX03002001-004)
- 作品数:1 被引量:8H指数:1
- 相关作者:王刚王刚郭岳龙桂小林田丰更多>>
- 相关机构:西安财经学院西安交通大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 采用类别相似度聚合的关联文本分类方法被引量:8
- 2012年
- 针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.
- 田丰桂小林杨攀王刚王刚
- 关键词:文本分类关联规则