何玉
- 作品数:3 被引量:10H指数:1
- 供职机构:华中科技大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金重庆市自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- SAT-FOIL+:基于句子级关联的文本分类被引量:1
- 2005年
- 以往基于词语关联的方法在挖掘频繁项集和关联规则时,都是将整个文本看作一个亨务来处理的,然而文本的基本语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,我们把一篇文档里的一个句子作为一个单独的事务,从而提出了一种基于句子级关联的分类方法SAT-FOIL。并在本文中提出新的得分模型来获得改进的新算法SAT-FOIL+。通过在标准的文本集Reuters上的大量实验,不仅证明新模型的优越性,而且证明了SAT-FOIL+分类效果同其他几种分类方法是可比的,并且要远远好于以往的基于文档级关联的分类方法。另外,挖掘出来的分类规则还具有易读性,并且易修改。
- 冯玉才李曲何玉冯剑琳
- 关键词:文本分类频繁项目集
- 基于最大关联规则的文本分类被引量:8
- 2006年
- 我们提出了一种新颖的、基于最大关联的文本分类方法—SAT-MOD+。在文本分类中,以往的方法在挖掘频繁项集和关联规则的时候,往往是将整个文本看作一个事务来处理的,然而文本的基本的语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,SAT-MOD+把一篇文档里的某些句子作为一个单独的事务。通过在标准的文本集上的大量实验,证明了SAT-MOD+的有效性。
- 何玉冯剑琳王元珍
- 关键词:文本分类关联规则最大频繁项目集
- 基于核心词扩展的文本分类
- 随着信息技术的不断发展,特别是Internet应用的普及,电子化文本数量迅速增长。为了快速的处理和查询所需要的文本信息,要求能够有效地组织文本。文本分类技术常被用于大量文本数据或超文本数据的组织,然而传统的文本分类技术已...
- 何玉
- 关键词:文本分类关联规则
- 文献传递