平宇
- 作品数:5 被引量:20H指数:2
- 供职机构:同济大学更多>>
- 发文基金:国家自然科学基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于云计算的分布式搜索方法
- 本发明公开一种基于云计算的分布式搜索方法,该方法包括通过分布式的网络爬虫爬取多种格式的网络文件;通过分布式的并行抽取解析爬虫所爬取到的文件,抽取格式为自定义的文档表格式;将抽取好的文档内容存入分布式的数据库中,建立文档表...
- 向阳陈佑雄张依杨平宇张波袁书寒
- 文献传递
- 基于云平台的消除近似重复网页方法
- 本发明公开一种基于云平台的消除近似重复网页的实现方法,该方法包括以下步骤:网页预处理,提取网页正文;在正文中提取特征项用于表征正文内容;计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;基于特征指纹计算相似度...
- 向阳陈佑雄张依杨平宇张波袁书寒
- 文献传递
- 基于云计算的网页排序方法
- 本发明公开一种基于云计算的网页排序方法,该方法包括:通过对存储在云上的,经过分布式网页爬虫爬取的网络文件进行解析处理,得到网络的基本拓扑结构信息文件;离线计算PR值后存入相应的文档表,其格式为以url为主键,包含titl...
- 向阳平宇张依杨陈佑雄张波袁书寒
- 文献传递
- 一种时间序列动态聚类的算法被引量:8
- 2012年
- 针对时间序列传统静态聚类问题,提出了对时间序列进行动态聚类的方法。该方法首先提取时间序列的关键点集合,根据改进的FCM算法找到动态特征明显的时间序列,再利用提出的动态聚类算法确定此类时间序列在不同时间段的所属类别,在改进的FCM算法中采用兰氏距离可以使其对奇异值不敏感。实验结果反映出动态特征明显的时间序列类别随时间演化的特性,表明了方法的可行性和有效性。与已有算法相比,该方法揭示了时间序列的部分动态特征。该方法还可以运用于研究数据挖掘的其他问题。
- 谢福鼎赵晓慧嵇敏平宇
- 关键词:时间序列模糊聚类算法动态聚类
- 基于MapReduce的并行PageRank算法实现被引量:12
- 2014年
- 分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。
- 平宇向阳张波黄寅飞
- 关键词:PAGERANK算法MAPREDUCE框架并行计算HADOOP平台