邓健爽
- 作品数:7 被引量:32H指数:4
- 供职机构:华南理工大学计算机科学与工程学院更多>>
- 发文基金:广东省科技攻关计划广州市科技攻关项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于关键词聚类和节点距离的网页信息抽取被引量:11
- 2007年
- 大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。
- 邓健爽郑启伦彭宏林旭东
- 关键词:聚类信息抽取
- 基于连通图动态分裂的聚类算法被引量:5
- 2007年
- 当前大部分的聚类算法都难以处理任意形状和大小、存在孤立点和噪音以及密度多变的簇,为此,文中提出了一种基于连通图动态分裂的聚类算法.首先构造数据集的l-连通图,然后采用动态分裂策略对l-连通图进行分割,把数据集分成多个互不相连的连通图子集,每个连通图子集为一类.实验结果表明,所提出的算法能够有效地解决任意形状和大小、存在孤立点和噪音以及密度多变的簇的聚类问题,具有广泛的适用性.
- 邓健爽郑启伦彭宏邓维维
- 关键词:连通图聚类算法
- 知识搜索引擎的研究及应用
- 随着网络技术的发展,互联网上的信息呈指数快速增长。人们利用搜索引擎,例如baidu,google从海量的信息中查找所需。然而,当前的搜索引擎只是把互联网上的网页收集到本地数据库,并且建立索引,根据用户的需求返回相关的网页...
- 邓健爽
- 关键词:搜索引擎信息检索网页信息抽取聚类算法连通图网页分类
- 文献传递
- 基于提取网站层次结构的网页分类方法被引量:6
- 2006年
- 网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到电子商务智能搜索和挖掘系统中。
- 邓健爽郑启伦彭宏
- 关键词:网页分类
- 基于网页布局及关键词组的垂直搜索技术被引量:3
- 2006年
- 提出了基于网页布局及关键词组的垂直搜索技术。在对特定信息进行抽取时,根据Web页面的布局特性,对页面采取分而治之的策略,同时在信息抽取时考虑各块之间的联系,以关键词组确定的关键节点为中心,与其他信息节点组成星形脉络图。实验结果表明,该方法具有较强的网页垂直搜索能力。
- 龙波邓健爽陈琼
- 关键词:垂直搜索信息抽取权值
- 基于搜索引擎的关键词自动聚类法被引量:3
- 2007年
- 互联网为用户提供了一个丰富的信息平台。然而,当前人们对互联网中海量信息的利用主要通过搜索引擎去查询相关的信息,互联网只是作为一个简单的信息库供用户检索。本文研究通过搜索引擎获得互联网信息并且在此基础上进行更高层次的知识挖掘———基于搜索引擎对关键词进行自动聚类。这是一个全新的研究,实验结果表明该方法具有理想的效果和新颖的构思。
- 邓健爽郑启伦彭宏邓维维
- 关键词:知识挖掘聚类
- 基于依存关系的问句理解与问句分类被引量:4
- 2007年
- 问句理解是问答系统的首要过程,问句分类是问句理解的主要组成部分,它在问答系统中具有非常重要的作用,因为问句类型有助于在文档中定位和抽取答案。问句分类的目标是基于预期的答案类型,准确地分类问句。本文提出依存关系规则与统计方法相结合,实现了基于依存关系的中文问句理解与问句分类机制。实验表明:支持向量机结合依存关系的特征抽取方法,获得了较高问句分类正确率。
- 林旭东彭宏林丕源邓健爽
- 关键词:问句分类命名实体识别