您的位置: 专家智库 > 资助详情>国家自然科学基金(09CTQ027)

国家自然科学基金(09CTQ027)

作品数:1 被引量:2H指数:1
相关作者:夏天更多>>
相关机构:中国人民大学教育部更多>>
发文基金:中国人民大学科学研究基金教育部科学技术研究重点项目国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇标记树

机构

  • 1篇教育部
  • 1篇中国人民大学

作者

  • 1篇夏天

传媒

  • 1篇广西师范大学...

年份

  • 1篇2011
1 条 记 录,以下是 1-1
排序方式:
基于扩展标记树的网页正文抽取被引量:2
2011年
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。
夏天
共1页<1>
聚类工具0