江苏省自然科学基金(BK2011005)
- 作品数:21 被引量:182H指数:8
- 相关作者:杨明吉根林郭丽娜涂金金章志刚更多>>
- 相关机构:南京师范大学南京大学南京工程学院更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金江苏省普通高校研究生科研创新计划项目更多>>
- 相关领域:自动化与计算机技术理学自然科学总论生物学更多>>
- Item-Based并行协同过滤推荐算法的设计与实现被引量:8
- 2014年
- 基于协同过滤的推荐已成为推荐系统中广泛采用的推荐技术.由于应用中用户数目和商品条目的日益增长,在计算相似度和计算预测时,单机集中式计算已不能满足推荐系统实时性和可扩展性的要求.针对这一问题,设计并实现了Item-Based并行协同过滤推荐算法.该算法采用Hadoop的MapReduce与HDFS架构,可分为Map与Reduce两个过程.通过在Map和Reduce节点上的并行处理可提高算法的执行效率.实验结果表明,该算法可明显减少推荐时间,提高推荐实时性,获得良好的可扩展性.
- 燕存吉根林
- 关键词:推荐系统协同过滤
- 结合分水岭分割的合成核SVM高光谱分类被引量:3
- 2018年
- 高光谱图像丰富的光谱信息使其在目标检测、地物分类等领域都具有重要应用,分类作为高光谱应用的重要中间步骤引起了广泛关注。高光谱图像空间信息刻画了光谱像素点与近邻关系,可以较好地弥补单纯使用光谱信息难以解决的同物异谱、同谱异物以及高维小样本等问题。传统预处理方式空间信息的使用是基于固定结构(如方窗)选择空间近邻以计算空间特征辅助分类,但会因窗口大小而影响空间特征质量。为此本文提出了结合分水岭分割的合成核支持向量机(Support vector machine,SVM)高光谱分类,根据分水岭分割图自适应选择优质的空间近邻,然后通过合成核SVM有效地把空间信息融入到原光谱信息分类中。实验表明,本文方法更好地利用了空间信息,实现在少量样本下高光谱图像的快速高精度分类。
- 赵振凯杨明
- 关键词:图像分类高光谱图像
- 一种基于FP-Growth的频繁项目集并行挖掘算法被引量:43
- 2014年
- FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式树,并对之进行挖掘得到局部频繁项目集,然后合并局部频繁项目集以得到全局频繁项集,由于此时得到的结果并不完备,所以对合并后未达到最小支持度阈值的项目集,重新计算其支持数。介绍了FPPM算法的设计思想,测试了其性能。实验结果表明FPPM算法具有较好的可扩展性。
- 章志刚吉根林
- 关键词:频繁项目集FPMAPREDUCE
- 一种基于子空间学习的图像语义哈希索引方法被引量:8
- 2014年
- 随着数据量的不断增加,快速而准确的索引算法对信息检索而言变得十分重要.针对上述问题,提出了一种基于子空间学习的索引算法.首先,利用部分有标签的数据进行子空间学习,在学习过程中,为了保证语义相同的样本在索引后保持局部性,以样本近邻间的距离衡量类内聚合度;同时,为了保证不同语义的样本在索引后增强判别性,以不同语义样本中心之间的距离衡量类间离散度.通过放松限制,用类似线性判别分析的方法进行子空间学习,将子空间作为哈希函数的投影向量.利用学习到的投影向量进一步计算偏移量,得到哈希函数.分别在数据集MNIST和CIFAR-10上进行编码判别性实验和局部性保留实验,并与相关方法进行比较,得到了较好的效果.实验结果表明该方法是有效的.
- 毛晓蛟杨育彬
- 关键词:哈希函数子空间
- 基于MapReduce的基因数据密度层次聚类算法被引量:7
- 2014年
- 随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间.
- 涂金金杨明郭丽娜
- 关键词:M基因表达数据
- 基于转发图的微博事件主题摘要方法被引量:2
- 2014年
- 自动摘要是自然语言处理中研究文本主题提取的重要课题.传统的摘要研究侧重于新闻、Web网页和博客等长文本的主题提取.本文关注以微博为代表的短文本的主题摘要,提出基于图结构的微博主题区域划分方法,并采用LDA方法提取微博热点事件的主题信息.最后,通过可视化方式展现主题内容在微博转发中的变化.
- 赵斌吉根林曲维光顾彦慧
- 关键词:可视化
- 一种并行结构化支持向量机次梯度投影算法被引量:2
- 2014年
- 支持向量机的次梯度投影算法是解决支持向量机优化求解问题的一种简单有效的迭代算法。该算法通过梯度下降和投影两个步骤的多轮迭代,找到两类最大间隔的分类面。针对该算法忽略了对寻找分类面同样有指导意义的样本分布信息这一问题,在分类器设计中融入结构信息,并且采用MapReduce并行计算框架,提出了一种并行结构化支持向量机的次梯度投影算法,该算法能够充分利用集群的计算和存储能力,适用于海量数据的优化问题。在NASA的两个软件模块缺陷度量数据集CM1和PC1上的实验结果表明,该算法能够加快收敛速度,提高分类性能,有效地解决海量数据的优化求解问题。
- 郭丽娜杨明涂金金
- 关键词:MAPREDUCE
- 一种基于C-Tree的属性约简增量式更新算法被引量:7
- 2012年
- 针对以往文献为克服基于差别矩阵的属性约简算法存储代价高的不足而提出的基于浓缩树(C-Tree)的高效属性约简算法仅考虑决策表不变的情况,提出了一种基于C-Tree的属性约简增量式更新算法,主要考虑对象动态增加情况下属性约简的更新问题.该算法可通过快速更新C-Tree,在动态求解核的基础上,利用原有的属性约简有效地进行属性约简的增量式更新.理论分析和实验结果表明,所提出的算法是有效可行的.
- 杨明吕静
- 关键词:粗糙集差别矩阵属性约简增量式更新
- 不完美信息扩展式博弈中在线虚拟遗憾最小化被引量:8
- 2014年
- 研究在不完美信息扩展式博弈中对次优对手弱点的利用.针对该领域中一种常用方法——对手建模方法——的不足,提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾最小化方法——将其扩展到在线博弈的场景中,实现对次优对手弱点的利用.提出了从博弈结果中估计各个信息集的虚拟价值的方法,给出2种估计手段:静态估计法和动态估计法.静态估计法直接从博弈结果的分布中进行估计,并对每个结果给以相等的估计权重;而动态估计法则对新产生的博弈结果给以较高的估计权重,以便快速地适应对手的策略变化.基于2种估计方法,提出在线博弈中虚拟遗憾最小化的算法,并在基于单牌扑克的实验中,与4种在线学习算法(DBBR,MCCFR-os,Q-learning,Sarsa)进行了对比.实验结果显示所提出的算法不仅对较弱对手的利用效果最好,还能在与4种对比算法的比赛中取得最高的胜率.
- 胡裕靖高阳安波
- 关键词:不完美信息
- 并行挖掘频繁项目集新算法——MREclat被引量:4
- 2014年
- 针对Eclat算法在挖掘海量数据中的频繁项目集时存在的内存和计算资源不足等问题,提出了基于Map/Reduce计算模型的并行挖掘算法——MREclat。首先,将水平型数据库转换成垂直型数据库;然后,将转换后的数据按2-项集的前缀分发到各个计算节点上,且在分发数据时引入了均衡策略;接着,在各个计算节点上求出以某一前缀开头的所有频繁项目集;最后,合并各个节点的结果得到所有频繁项目集。介绍了MREclat的设计思想,研究了算法的运行性能。实验结果表明,MREclat算法效率大约是PEclat算法的2倍,加速比性能比PEclat算法提高了64%。
- 章志刚吉根林唐梦梦
- 关键词:频繁项目集并行挖掘算法MAPREDUCE