方宏
- 作品数:3 被引量:23H指数:1
- 供职机构:国防科学技术大学更多>>
- 发文基金:广东省科技计划工业攻关项目湖南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 文本提取和相似反馈的互联网图像检索研究被引量:1
- 2011年
- 使用基于文本的互联网图像检索技术是互联网图像检索最实用的方式,也对其他方式的互联网图像检索有重要辅助作用,但如何利用周边文本来对图像进行准确描述一直是一个难题。利用TFIDF为基础提出了一个基于句法和文本重要性分类的图像关键词权重计算方法,并尝试通过图像的相似性因素作为反馈进一步优化搜索结果,为用户返回最贴切的搜索结果。
- 詹恒飞杨岳湘方宏
- 关键词:图像文本提取
- Nutch分布式网络爬虫研究与优化被引量:22
- 2011年
- Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试,证明了此方案比原方案更加高效。
- 詹恒飞杨岳湘方宏
- 关键词:网络爬虫