搜索到57篇“ 投影数据库“的相关文章
基于有序FP-tree结构和投影数据库的最大频繁模式挖掘算法被引量:1
2020年
OPFP-MAX是基于有序FP-tree结构和投影数据库的最大频繁模式挖掘算法。有序FP-tree结构不仅可以减少空间的浪费,而且由于树结构的有序性,在挖掘数据时可以减少挖掘事务项的数量,从而加快挖掘效率。算法采用垂直投影方案实现数据分解,基于投影数据库创建局部树结构,从而进一步减少对系统空间资源的浪费。采用优化策略加快挖掘效率。实验验证了算法的可行性和优越性。
王利军唐立
关键词:投影数据库最大频繁项集
重复投影数据库下的优化挖掘方法研究与仿真
2016年
进行重复投影会使数据库中出现大量冗余数据,使得数据特征之间出现相似性干扰。传统的挖掘方法,遇到特征相似性情况时,以模糊规则建立挖掘关联规则,在建立模糊规则时,一旦特征过于接近,需要加入很多的约束条件,计算过程较为繁琐,导致数据挖掘准确性差、效率低的问题。提出基于贝努里模型的大量重复投影数据库下优化挖掘方法,依据等级分组识别重复投影数据,建立贝努里模型。根据冗余属性的贡献及区分能力的不同,确定两个分类贡献系数。依据两个先验概率值,依次放大两个分类贡献系数倍。通过改进贝努里事件模型中条件概率中的估计方法,划分大量重复投影数据库下的重复数据,实现大量重复投影数据库下的优化挖掘,提高数据搜索效率。仿真结果表明,改进方法不仅具有较优的挖掘性能,而且挖掘效率高。
林荫石林杨长春
基于投影数据库的改进单向COFI-tree关联分类被引量:2
2014年
针对关联分类算法面对大数据集事务库时的候选集庞大、难以生成挖掘数据结构和高资源消耗等问题,提出了一种基于投影数据库的改进单向COFI-tree频繁项集生成算法,结合相关性度量等剪枝操作提取高效的分类规则,通过分治数据库有效降低整个数据库对资源的需求,减小对频繁项集的搜索空间和非频繁项集的数量,从而实现对频繁项集生成的优化过程.实验结果表明该算法通过生成初始投影数据库,并利用单向COFI-tree挖掘频繁项集的时间远小于同类算法对数据集进行直接挖掘,为大数据集的关联分类挖掘提供了一种新的解决途径.
唐成华刘鹏程强保华王文波
关键词:投影数据库频繁项集
缩减投影数据库规模的增量式序列模式算法被引量:2
2012年
在增量式序列模式挖掘算法中,数据库更新只有插入和扩展2种操作,未考虑序列删除的情况。为此,提出一种基于频繁序列树的增量式序列模式更新算法(IUFST)。在数据库和支持度发生变化时,IUFST算法分不同情况对频繁序列树进行更新操作,缩减投影数据库的规模,提高算法效率。实验结果表明,该算法在时间性能上优于PrefixSpan算法和IncSpan算法。
刘佳新严书亭任家东
关键词:数据挖掘增量式挖掘投影数据库
一种基于投影数据库的SPAM算法被引量:1
2010年
序列模式挖掘是数据挖掘的重要分支,关于序列模式挖掘的算法非常多,SPAM算法就是序列模式挖掘算法的一种,Perfixspan算法(基于投影的算法)也是序列模式挖掘算法的一种。SPAM算法和Perfixspan算法各有优缺点。研究这两种算法的基础上给出了一种结合这二种算法优点进行改进的算法。
陈景强翁正秋
关键词:数据挖掘
无重复投影数据库扫描的序列模式挖掘算法被引量:25
2007年
序列模式挖掘在Web点击流分析、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用.基于频繁模式增长的PrefixSpan是目前性能最好的序列模式挖掘算法之一.然而在密数据集和长序列模式挖掘过程中会出现大量的重复投影数据库,使得这类算法性能下降.算法SPMDS通过对投影数据库的伪投影做单项杂凑函数,如MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,并采用一些必要条件简化投影数据库的搜索,进而提高算法的性能.实验和分析都表明SPMDS性能优于PrefixSpan.
张坤朱扬勇
关键词:序列模式挖掘投影数据库前缀树
基于投影数据库的序列模式挖掘增量式更新算法被引量:6
2006年
针对序列模式挖掘中的增量挖掘问题,提出一种序列模式更新算法ISPBP.算法引入序列数据库结构来存储从原始数据库中挖掘出的所有项、最大频繁模式以及它们的支持数,采用间接拼接方法,只需处理增量数据库,避免了对更新后数据库的重新计算.对于因增量数据库新产生的频繁模式,利用了在增量数据库中出现的频繁项集来减小投影数据库,进一步提高了算法的效率.理论分析和实验表明,算法是有效可行的,并且增量数据库越大,算法在效率上的优越性越明显,算法ISPBP优于传统增量式更新算法.
陆介平刘月波倪巍伟陈耿孙志挥
关键词:数据挖掘投影数据库增量式更新
基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法
本发明公开了一种基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法,不同于传统PrefixSpan算法,在进行投影数据库建立的时候引入时间信息,将前缀之前一段时间的序列也加入了每条后缀当中,构建拓展投影数据库...
朱群雄金成彦贺彦林徐圆张洋
高效用项集挖掘算法改进研究
高效用项集挖掘考虑项的重要性、利润、用户偏好等因素,给项赋予不同的权重以计算项集的效用,更加满足实际应用的需求。高效用项集挖掘领域是当前数据挖掘的研究热点之一。目前,数据的爆炸式增长给高效用项集挖掘算法的研究提出了新的挑...
张晓蝶
关键词:投影数据库并行计算
基于前缀跨度、熵值特征算法的网络安全评估仿真模型
本发明公开了基于前缀跨度、熵值特征算法的网络安全评估仿真模型,涉及网络安全技术领域。本发明采用经过优化的前缀投影算法来确定和计算动作集合A;具体是基于PrefixSpan算法,通过该算法进行序列挖掘,找到一个数据集中所有...
王昊天

相关作者

刘佳新
作品数:25被引量:46H指数:3
供职机构:燕山大学信息科学与工程学院
研究主题:数据挖掘 投影数据库 增量式挖掘 增量式 序列模式挖掘算法
刘月波
作品数:4被引量:19H指数:3
供职机构:上海工程技术大学
研究主题:数据挖掘 投影数据库 序列模式挖掘 增量式更新 PREFIXSPAN
张坤
作品数:7被引量:33H指数:3
供职机构:复旦大学
研究主题:前缀树 序列模式挖掘 投影数据库 序列模式挖掘算法 高维数据挖掘
皮德常
作品数:199被引量:371H指数:9
供职机构:南京航空航天大学
研究主题:数据挖掘 异常检测 神经网络 时序数据 卫星
何诚
作品数:78被引量:0H指数:0
供职机构:华为技术有限公司
研究主题:用户 数据处理 基站 协作通信 终端