谷峰
- 作品数:4 被引量:5H指数:2
- 供职机构:华侨大学计算机科学与技术学院计算机科学与技术系更多>>
- 发文基金:福建省科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文网页层次分类研究
- 随着互联网在中国的迅速普及,现在每天中文网页都在以数以万记的速度增加,这无疑带来了巨量信息。那么面对如此庞大的信息,迫切需要解决的问题是如何管理和利用这些信息资源。为了有效地组织和检索网页资源,必须对网页进行合理分类。近...
- 谷峰
- 关键词:网页分类中文网页
- 文献传递
- 基于序列数据挖掘的中文网页特征选择方法
- 提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,...
- 谷峰刘晨曦吴扬扬
- 关键词:序列数据挖掘PAT树中文网页分类
- 文献传递
- 文本分类关键技术被引量:3
- 2006年
- 本文介绍了文本分类的基本原理及关键技术,讨论目前的一些主要算法,对现有的文本分类算法进行分析和比较,并针对目前文本分类技术的不足之处,提出今后文本分类研究的方向和目标。
- 谷峰吴扬扬
- 关键词:文本分类向量空间模型
- 基于序列数据挖掘的中文网页特征选择方法被引量:2
- 2006年
- 提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.
- 谷峰刘晨曦吴扬扬
- 关键词:序列数据挖掘PAT树中文网页分类