国际科技合作与交流专项项目(2010DFA11030)
- 作品数:6 被引量:116H指数:5
- 相关作者:高阳商琳杨育彬余永红向小军更多>>
- 相关机构:南京大学南京邮电大学更多>>
- 发文基金:国际科技合作与交流专项项目国家自然科学基金江苏省自然科学基金更多>>
- 相关领域:自然科学总论自动化与计算机技术更多>>
- 并行化的情感分类算法的研究被引量:4
- 2013年
- 在海量数据集上执行情感分类任务时,传统的单机情感分类算法的扩展性成为系统的瓶颈。在云计算平台Hadoop上,实现了情感分类任务中特征提取、特征向量加权和情感分类等算法的MapReduce化。在情感语料数据集上,对各种子步骤组合下情感分类算法的精度及每种算法的时间开销进行了对比分析。实验结果验证了实现的并行化情感分类算法的有效性,同时它为用户选择合适算法实现情感分类任务提供了有价值的参考信息。
- 余永红向小军商琳
- 关键词:情感分类HADOOP云计算MAPREDUCE
- 面向服务的云数据挖掘引擎的研究被引量:21
- 2012年
- 数据挖掘算法处理海量数据时,扩展性受到制约。在商业和科学研究的各个领域,知识发现的过程和需求差异较大,需要有效的机制来设计和运行各种类型的分布式数据挖掘应用。提出了一种面向服务的云数据挖掘引擎的框架CloudDM。不同于基于网格的分布式数据挖掘框架,CloudDM利用开源云计算平台Hadoop处理海量数据的能力,以面向服务的形式支持分布式数据挖掘应用的设计和运行,并描述面向服务的云数据挖掘引擎系统的关键部件和实现技术。依据面向服务的软件体系结构和基于云平台的数据挖掘引擎,可以有效解决海量数据挖掘中的海量数据存储、数据处理和数据挖掘算法互操作性等问题。
- 余永红向晓军高阳商琳杨育彬
- 关键词:云计算HADOOP数据挖掘
- 基于Hadoop平台的海量文本分类的并行化被引量:37
- 2011年
- 文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用。
- 向小军高阳商琳杨育彬
- 关键词:文本分类并行化海量数据HADOOP
- 一种基于耦合对象相似度的项目推荐算法被引量:9
- 2014年
- 推荐系统根据用户的偏好为用户推荐个性化的信息、产品和服务等,能够帮助用户有效解决信息过载问题。基于内容的协同过滤算法缺少合适的度量指标用来计算项目之间的相似度。提出一种基于耦合对象相似度的项目推荐算法,即通过耦合对象相似度捕获项目特征频率分布相似性和特征依赖聚合相似度。首先从项目文本中抽取项目的关键特征,然后利用耦合对象相似度构建项目相似度模型,最后使用协同过滤的方法为活动用户推荐用户可能感兴趣的项目。在真实数据集上的实验结果表明,基于耦合对象相似度的推荐算法可以有效解决基于内容推荐系统的项目相似度度量问题,在缺失大量项目特征数据的情况下改进传统基于内容推荐系统的推荐质量。
- 余永红陈兴国高阳
- 关键词:协同过滤
- 一种基于MapReduce的频繁闭项集挖掘算法被引量:18
- 2012年
- 频繁闭项集的挖掘是发现数据项之间关联规则的一种有效方式.当前以MapReduce模式为基础的云计算平台为解决海量数据中的关联规则挖掘问题提供新的解决思路.文中提出并实现一种基于Hadoop云计算平台的频繁闭项集的并行挖掘算法.该算法主要包括并行计数、构造全局频繁项表、并行挖掘局部频繁闭项集和并行筛选全局频繁闭项集四个步骤.在多个数据集上的实验表明,该方法能较大提高数据挖掘的效率,具有较好的加速比.
- 陈光鹏杨育彬高阳商琳
- 关键词:云计算数据挖掘频繁闭项集MAPREDUCE
- 中国数据挖掘研究进展被引量:27
- 2011年
- 数据挖掘(data mining)是一个从大规模数据中挖掘不平凡知识的专门技术,目前已经在自然科学、生物医学、经济学、社会学甚至文学研究中得到了广泛的应用.从传统任务分类的角度,数据挖掘技术可分为七类,分别是:分类,聚类,预测,关联规则,评估,可视化和复杂数据类型挖掘.但数据挖掘技术近几年得到了迅猛的发展,已经扩展到社会网络分析、推荐系统、图数据挖掘、时空数据分析、特征选择等等新的研究领域.
- 高阳
- 关键词:数据挖掘技术社会网络分析大规模数据生物医学数据类型