您的位置: 专家智库 > >

胡东东

作品数:2 被引量:36H指数:1
供职机构:中国人民大学信息学院更多>>
发文基金:教育部科学技术研究重点项目教育部“优秀青年教师资助计划”国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇会议论文

领域

  • 2篇自动化与计算...

主题

  • 2篇语义块
  • 2篇树结构
  • 2篇WEB
  • 2篇抽取
  • 2篇抽取方法

机构

  • 2篇中国人民大学

作者

  • 2篇孟小峰
  • 2篇胡东东

传媒

  • 1篇计算机研究与...

年份

  • 2篇2004
2 条 记 录,以下是 1-2
排序方式:
一种基于树结构的Web数据自动抽取方法
介绍了一种基于树结构的自动从HTML页面中抽取数据的方法.在HTML页面的树形结构之上,提出了基于语义块的HTML页面结构模型:HTML页面中的数据值主要存在于语义块中,不同的HTML页面的主要区别在于语义块的区别.基于...
胡东东孟小峰
关键词:WEB抽取树结构语义块
文献传递
一种基于树结构的Web数据自动抽取方法被引量:36
2004年
介绍了一种基于树结构的自动从HTML页面中抽取数据的方法 在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别 基于语义块的结构模型 ,自动抽取通过 4个步骤完成 :通过HTML页面比较发现语义块 ;区分语义块中数据值的角色 ;推导数据模式和推导抽取规则 在实际HTML页面上的实验已经证明 ,这种方法能够达到较高的正确率 ,同时 ,随着文档的增大 。
胡东东孟小峰
关键词:WEB抽取树结构语义块
共1页<1>
聚类工具0