顾霄
- 作品数:2 被引量:12H指数:2
- 供职机构:中南财经政法大学信息与安全工程学院更多>>
- 发文基金:教育部人文社会科学研究基金国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于属性权重最优化的k-means聚类算法被引量:10
- 2014年
- 聚类是最常用的数据挖掘算法之一.为了提高聚类结果的质量,应用拉格朗日乘数法提出了一种基于属性权重最优化的k-means聚类算法.该算法在计算样本与质心的距离时为各属性赋予相应的权重以表示属性的重要程度,并在每轮迭代中根据质心向量的变化自动计算最优的属性权重,使得所有样本与相应质心的距离和最小.实验结果验证了该方法相对于传统k-means算法的优势.
- 熊平顾霄
- 关键词:聚类算法数据挖掘目标函数
- 基于信息增益比例约束的数据匿名方法及其评估机制被引量:2
- 2014年
- 针对数据发布中的隐私泄露问题,分析了对数据集进行匿名保护需要满足的条件,提出了一种基于信息增益比例约束的数据匿名方法。该方法以凝聚层次聚类为基本原理,将数据集中的元组划分到若干个等价群中,然后概化每个等价群中的元组使其具有相同的准标志符值。在聚类过程中,以信息损失最小、信息增益比例最大的约束条件来控制聚类的合并,可以使数据匿名结果保持良好的可用性和安全性。对匿名结果的质量评估问题进行了深入的探讨,提出了匿名结果可用性和安全性的量化计算方法。在UCI知识库提供的Adult数据集上的一系列实验结果表明,该方法是有效可行的。
- 熊平朱天清顾霄
- 关键词:凝聚层次聚类信息增益数据发布