薛文娟
- 作品数:3 被引量:12H指数:2
- 供职机构:山东师范大学更多>>
- 发文基金:山东省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于层次聚类的日志分析技术研究
- 互联网的普及和迅速发展的宽带通信业务,把人们带入了一个信息极大丰富的时代。然而在给人们带来较多便利的同时,伴随而来的信息安全事件也越来越多,造成了巨大的经济损失,预防和阻止安全事件的发生变得尤其重要。日志用于记录系统日常...
- 薛文娟
- 关键词:日志分析层次聚类CHAMELEONHADOOP签密方案
- 文献传递
- 基于Map Reduce的序列模式挖掘算法被引量:2
- 2012年
- 传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。
- 刘栋尉永清薛文娟
- 关键词:并行处理MAPPREFIXSPAN算法HADOOP平台
- 引入共享近邻加权图的Chameleon算法被引量:6
- 2012年
- 针对Chameleon算法中采用距离函数度量数据点间的相似度,导致距离相近的两个点可能仅拥有很少的共同特征,最小二分实际操作困难,合并时需要人工指定阈值以及一旦合并完成后不能撤销的问题,对Chameleon算法进行改进,提出一种引入共享近邻加权图(WSnnG)的Chameleon算法。该算法以数据对象间的共享近邻数来衡量相似度,进一步构造WSnnG,再利用网络模块性评价函数指导最小二分,然后以结构等价相似度作为合并的依据,最后通过引入内聚度度量函数解决合并后不能撤销的问题。在UCI数据集及4个二维人造数据集上的实验结果表明,该算法在聚类精度和运行时间方面具有更好的效果。
- 薛文娟刘培玉刘栋