国家自然科学基金(61170190)
- 作品数:8 被引量:21H指数:3
- 相关作者:任家东刘佳新卢海涛蔡斌雷郭芹更多>>
- 相关机构:燕山大学山东省科学院济南大学更多>>
- 发文基金:国家自然科学基金秦皇岛市科学技术研究与发展计划课题国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hadoop MapReduce的分布式数据流聚类算法研究被引量:5
- 2014年
- 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。
- 蔡斌雷任家东朱世伟郭芹
- 关键词:聚类数据流聚类分布式聚类
- 一种基于频繁序列树的增量式序列模式挖掘算法被引量:1
- 2012年
- 针对目前现有的增量式序列模式挖掘算法没有充分利用先前的挖掘结果,当数据库更新时,需要对数据库进行重复挖掘的问题。本文提出一种基于频繁序列树的增量式序列模式挖掘算法(ISFST),ISFST采用频繁序列树作为序列存储结构,当数据库发生变化时,ISFST算法分两种情况对频繁序列树进行更新操作,通过遍历频繁序列树得到满足最小支持度的所有序列模式。实验结果表明,ISFST算法在时间性能上优于PrefixSpan算法和IncSpan算法。
- 刘佳新
- 关键词:数据挖掘增量式挖掘投影数据库剪枝策略
- 基于序列聚类的相似代码检测算法被引量:5
- 2013年
- 为了提高源程序代码之间相似性的检测效率,提出一种基于序列聚类的相似代码检测算法.算法首先把源代码按照其自身的结构进行分段提取,然后对各个分段进行部分代码变换,再以带权重的编辑距离为相似度量标准对这些符号进行序列聚类,得到相似的程序代码片段,以达到对源程序进行相似功能检测的目的.使用多个真实和仿真程序对上述算法进行了实验,实验结果验证了算法的有效性和可伸缩性.
- 于世英袁雪梅卢海涛任家东李硕
- 关键词:序列聚类
- 面向大规模流数据的可扩展分布式实时处理方法被引量:2
- 2016年
- MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求。对此提出一种面向大规模流数据的可扩展、分布式实时处理方法。该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、单遍分析,以提高对流数据的实时分析能力。实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性。
- 蔡斌雷郭芹朱世伟任家东
- 关键词:分布式计算流数据处理MAPREDUCE
- 基于频繁序列树的交互式序列模式挖掘算法被引量:1
- 2012年
- 为了减少在序列模式挖掘过程中由于重复运行挖掘算法而产生的时空消耗,提出了一种基于频繁序列树的交互式序列模式挖掘算法(ISPM)。ISPM算法采用频繁序列树作为序列存储结构,频繁序列树中存储数据库中满足频繁序列树支持度阈值的所有序列模式及其支持度信息。当支持度发生变化时,通过减少本次挖掘所要构造投影数据库的频繁项的数量来缩减投影数据库的规模,从而减少时空消耗。实验结果表明,ISPM算法在时间性能上优于PrefixSpan算法和Inc-Span算法。
- 刘佳新
- 关键词:数据挖掘
- 基于云自适应差分和BP神经网络的板形动态影响矩阵控制方法被引量:1
- 2012年
- 为了克服传统板形控制中产品质量差、控制速度慢、生成效率低,以及静态影响矩阵控制信息不足等缺点,将云自适应差分算法(CADE)优化的BP神经网络应用到板形控制中,建立板形预测神经网络,并在离线状态下,根据板形轧制的历史数据和板形调控机构中的关键影响因素建立动态影响矩阵表。在线轧制过程中只需要与板形控制关键影响因素对应的动态影响矩阵表和板形识别变化量,就可以很快得到主要板形控制手段的控制量。该方法避免了神经网络的在线训练,提高了板形的控制速度和轧制精度。仿真实验表明,该方法稳定性好,控制精度高,适合用于板形的在线控制。
- 于世英吴晓辉何海涛王倩
- 关键词:影响矩阵BP神经网络
- 一种高效的增量式序列模式挖掘算法被引量:3
- 2012年
- 现有的增量式挖掘算法在支持度发生变化时,需要对序列数据库进行重复挖掘,为减少由此产生的时空消耗,提出一种高效的增量式序列模式挖掘算法。算法采用频繁序列树作为序列存储结构,当序列数据库和最小支持度发生变化时,通过执行更新操作,实现频繁序列树的更新,利用深度优先遍历频繁序列树找到序列数据库中所有的序列模式。实验结果表明,与IncSpan算法和PrefixSpan算法相比,该算法的挖掘效率较高。
- 刘佳新
- 关键词:数据挖掘增量式挖掘投影数据库
- 一种基于复杂网络属性值的K-means聚类算法被引量:4
- 2012年
- 传统K-means聚类算法的性能依赖于初始聚类中心的选择。本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的个节点作为聚类的初始聚类中心,然后进行聚类迭代过程。实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量。
- 董俊任家东卢海涛
- 关键词:聚类复杂网络K-MEANS初始聚类中心