您的位置: 专家智库 > >

周雪

作品数:2 被引量:3H指数:1
供职机构:山东师范大学信息科学与工程学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇数据采集
  • 1篇数据采集技术
  • 1篇搜索
  • 1篇爬虫
  • 1篇主题
  • 1篇主题链接
  • 1篇网络
  • 1篇网络爬虫
  • 1篇网页
  • 1篇网页分块
  • 1篇链接
  • 1篇链接结构
  • 1篇候选
  • 1篇分块
  • 1篇PAGERA...

机构

  • 2篇山东师范大学
  • 2篇山东省分布式...

作者

  • 2篇刘乃文
  • 2篇周雪

传媒

  • 1篇计算机与数字...
  • 1篇山东师范大学...

年份

  • 1篇2018
  • 1篇2016
2 条 记 录,以下是 1-2
排序方式:
基于用户影响力的微博数据采集技术被引量:2
2016年
微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度.在分析对比了基于Cookie爬虫微博数据采集方法和基于API接口微博数据采集方法的基础上,提出了一种基于用户影响力的微博用户信息采集方案.将每一个API调用封装成一个Task类嵌入到具有模拟登陆功能的爬虫程序中,通过贝叶斯-Pagerank算法量化微博用户之间的关注关系得到用户的影响力值,依据用户影响力值决定爬取顺序,可以在有限的时间内采集到更多有价值的节点信息.实验结果表明该方案在微博数据采集的效率与性能上都有较大提高.
周雪刘乃文
关键词:网络爬虫PAGERANK
引入主题链接块因子的候选链接搜索策略研究被引量:1
2018年
网页主题爬取过程中,需要计算网页中出现的url权重,不断填充待爬行队列,以满足爬行条件,如何发现与主题最相关的链接,同时又不会导致"主题漂移"问题是关键。针对链接的锚文本较短小,不能很好地表明链接指向页面与主题的相关性的问题,论文在Shark-search算法的基础上引入相关链接块权重,利用块中子链接的锚文本进行块的权重计算,通过对比实验验证了改进算法可以更好地区分处于同一页面中的链接的相关度评分,提高爬虫的查准率,同时缓和"主题漂移"的问题。
周雪刘乃文
关键词:网页分块链接结构
共1页<1>
聚类工具0