张驹
- 作品数:3 被引量:4H指数:1
- 供职机构:中南大学更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于Hash函数抽样的数据流聚类算法被引量:3
- 2009年
- 近几年来由于数据流应用的大量涌现,基于数据流的数据挖掘算法已成为重要的研究课题,而现有的数据流聚类算法CIustream算法存在效率低,对大数据集适应性差等严重不足,本文提出了一种基于Hash函数抽样的数据流聚类算法。算法采用等时间跨度滑动窗口的思想,对每个窗口内的数据首先用Hash函数进行抽样,抽样后的数据先保存在存储池中,然后分析样本数据的变化情况,再利用PAM算法得到最终的聚类结果。从对真实数据集的实验结果上来看,算法具有良好的可行性和有效性,且在大规模数据处理的情况下,效率远高于Clustream算法。
- 张驹黄汉永肖杰
- 关键词:数据流聚类HASH函数存储池
- 基于数据流的聚类算法研究与实现
- 近年来,由于计算机应用技术的高速发展,人们获取数据的能力得到极大的提高,数据流作为一类重要的数据来源,受到越来越多的关注,基于数据流模型的聚类算法已成为重要的前沿课题。
与传统数据库不同,数据流具有如下特点:数...
- 张驹
- 关键词:数据流聚类算法HASH函数
- 文献传递
- 一种基于频繁概念集的文本聚类方法
- 2009年
- 针对传统文本表示模型的不足以及文本向量的"高维诅咒"问题,本文提出一种基于频繁概念集的文本聚类方法(CFC)。该方法利用HowNet将文本中的关键词映射为概念,然后使用Apriori算法找出概念文本集中的频繁特征项,我们称之为频繁概念,最后利用CFC算法实现文本聚类。实验表明,较传统的基于频繁特征项的同类方法,该方法能获得更好的聚类效果。
- 肖杰黄汉永张驹
- 关键词:文本聚类概念映射频繁项集