国家社会科学基金(09CTQ027)
- 作品数:7 被引量:138H指数:4
- 相关作者:夏天顾益军陈杰更多>>
- 相关机构:中国人民大学中国人民公安大学教育部更多>>
- 发文基金:国家社会科学基金中国人民大学科学研究基金更多>>
- 相关领域:自动化与计算机技术文化科学政治法律更多>>
- 中心网页中主题网页链接的自动抽取被引量:4
- 2012年
- 基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。
- 夏天
- 词语位置加权TextRank的关键词抽取研究被引量:77
- 2013年
- 把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键词抽取结果。实验结果表明,对词语位置加权的TextRank方法优于传统的TextRank方法和基于LDA主题模型的关键词抽取方法。
- 夏天
- 关键词:关键词抽取
- 融合LDA与TextRank的关键词抽取研究被引量:70
- 2014年
- 【目的】通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键词抽取。【方法】利用LDA对文档集进行主题建模和候选关键词的主题影响力计算,进而对TextRank算法进行改进,将候选关键词的重要性按照主题影响力和邻接关系进行非均匀传递,并构建新的概率转移矩阵用于词图迭代计算和关键词抽取。【结果】实现LDA与TextRank的有效融合,当数据集呈现较强的主题分布时,可以显著改善关键词抽取效果。【局限】融合方法需要进行代价较高的多文档主题分析。【结论】关键词既与文档本身相关,也与文档所在的文档集合相关,二者结合是改进关键词抽取结果的有效途径。
- 顾益军夏天
- 关键词:关键词抽取LDA图模型
- Ajax站点数据采集研究综述被引量:11
- 2010年
- 从Ajax链接元素的识别、页面状态标识、页面状态可控性转换、页面状态内容动态获取和状态重复检测5个方面介绍Ajax数据采集所取得的最新研究进展,总结系统的整体处理流程和支撑技术,探讨新的发展趋势,推动Ajax数据采集问题展开更为深入的研究。
- 夏天
- 关键词:数据采集WEB2.0
- Nutch的插件机制分析
- 2010年
- 论述Nutch插件机制的设计目标,分析归纳Nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清单描述器;插件工厂和插件清单解析器。总结Nutch插件的处理流程和概念与实际文件之间的对应关系。对Nutch插件机制的深入理解,有助于灵活构建基于Nutch的新应用。
- 夏天
- 关键词:NUTCH微内核插件扩展点
- 中国政府网站移动浏览器兼容性研究被引量:1
- 2014年
- 移动浏览器已成为人们获取政府网站信息的新途径,政府网站对移动浏览器兼容性的好坏不仅影响用户的访问体验,还关系着政府机构职能是否有效发挥、官民沟通是否顺畅等问题。本文就政府网站首页对移动浏览器的兼容性进行研究,结果表明:兼容性与行政级别、经济发展水平成正相关,与信息化发展阶段成负相关关系,整体上对UC浏览器的兼容性高于Safari浏览器;其形成原因既与外部的软硬件发展变化相关,也与政府网站本身对标准的遵从程度不高相关,并给出了相关对策建议。
- 夏天陈杰魏小贞魏书莉丁天星
- 关键词:政府网站移动浏览器兼容性
- Web数据的深度定向采集被引量:2
- 2011年
- 通过模拟人类访问网页的浏览行为,提取定向爬行子页面集限定爬虫的爬行方向;引入页面继承关系,并通过爬行条目的属性继承实现跨页面复合对象的数据关联关系;设计实现了支持深度定向采集的通用爬行流程。面向天涯热帖的舆情采集实验结果表明:该方法可以在整体处理流程不变的前提下,实现复杂对象的数据采集,并具有较高的采集效率。
- 夏天