您的位置: 专家智库 > >

谷峰

作品数:4 被引量:5H指数:2
供职机构:华侨大学计算机科学与技术学院计算机科学与技术系更多>>
发文基金:福建省科技计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 4篇自动化与计算...

主题

  • 3篇中文
  • 3篇中文网页
  • 3篇网页
  • 3篇网页分类
  • 2篇序列数据
  • 2篇序列数据挖掘
  • 2篇数据挖掘
  • 2篇中文网页分类
  • 2篇列数
  • 2篇PAT树
  • 1篇文本分类
  • 1篇向量
  • 1篇向量空间
  • 1篇向量空间模型

机构

  • 4篇华侨大学

作者

  • 4篇谷峰
  • 3篇吴扬扬
  • 2篇刘晨曦

传媒

  • 1篇福建电脑
  • 1篇山东大学学报...
  • 1篇第四届全国搜...

年份

  • 4篇2006
4 条 记 录,以下是 1-4
排序方式:
中文网页层次分类研究
随着互联网在中国的迅速普及,现在每天中文网页都在以数以万记的速度增加,这无疑带来了巨量信息。那么面对如此庞大的信息,迫切需要解决的问题是如何管理和利用这些信息资源。为了有效地组织和检索网页资源,必须对网页进行合理分类。近...
谷峰
关键词:网页分类中文网页
文献传递
基于序列数据挖掘的中文网页特征选择方法
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,...
谷峰刘晨曦吴扬扬
关键词:序列数据挖掘PAT树中文网页分类
文献传递
文本分类关键技术被引量:3
2006年
本文介绍了文本分类的基本原理及关键技术,讨论目前的一些主要算法,对现有的文本分类算法进行分析和比较,并针对目前文本分类技术的不足之处,提出今后文本分类研究的方向和目标。
谷峰吴扬扬
关键词:文本分类向量空间模型
基于序列数据挖掘的中文网页特征选择方法被引量:2
2006年
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.
谷峰刘晨曦吴扬扬
关键词:序列数据挖掘PAT树中文网页分类
共1页<1>
聚类工具0