金明珠
- 作品数:2 被引量:6H指数:2
- 供职机构:上海理工大学光电信息与计算机工程学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于统计模型的主题爬虫的研究与实现被引量:3
- 2010年
- 在研究了现存的主题爬虫的基础上,提出了一种基于统计模型的主题爬虫,它对抓取过程中可获得的信息进行分析,并运用统计模型计算的结果过滤URL,有效地解决了偏好特定主题的用户检索和Web信息的索引等相关问题。实验结果表明,与基于链接和网页内容分析的主题爬虫相比,该主题爬虫能够在检索较少的网页时,抓取到较多的与主题相关的网页,提高了抓取精度。
- 金明珠丁岳伟
- 关键词:统计模型主题爬虫URL过滤特征信息字段
- 基于动态主题库的主题爬虫被引量:4
- 2009年
- 通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫。它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度。实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与主题相关的网页。
- 金明珠丁岳伟
- 关键词:主题爬虫URL过滤主题相关度