辽宁省自然科学基金(201202119)
- 作品数:8 被引量:52H指数:4
- 相关作者:任永功胡志冬杨雪杨荣杰郭健更多>>
- 相关机构:辽宁师范大学更多>>
- 发文基金:辽宁省自然科学基金辽宁省科学技术计划项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于滑动窗口密度聚类的数据流偏倚采样算法被引量:2
- 2013年
- 对于移动计算领域的移动对象轨迹数据流的管理,最普遍采用的技术手段是采样技术,而传统的均匀采样易丢失一些关键的变化数据,造成信息丢失现象。针对这一问题,提出一种基于概率密度聚类的数据流偏倚采样算法。该算法在滑动窗口模型下,充分利用了轨迹数据流自身的分布特性,结合偏倚采样算法思想克服了均匀采样的数据丢失问题。算法首先采用基于数据存在密度的聚类技术将滑动窗口划分为强簇、弱簇和过度簇,然后针对不同的簇给予不同的采样率,进行偏倚采样,进而得到最终的数据流摘要。经过实际数据集的实验检测,证明算法较好地保证了采样质量,并具有较快的数据处理能力。
- 胡志冬任永功杨雪
- 关键词:密度聚类
- 基于Redis内存数据库的快速查找算法被引量:26
- 2016年
- 大数据时代的到来,使许多云环境下的新型应用蓬勃发展。针对大数据管理的新需求,key-value型数据存储系统成为当今研究的热点。基于key-value引擎的内存数据库Redis以及Cuckoo Hash技术,提出一种混合哈希快速查找算法CSR_Hash。通过对实验结果的分析,表明该算法有效地缩短了查询响应时间,并将其应用在通过Hadoop云平台以及Map/Reduce编程模型实现的图书销售系统中,对图书数据进行实时高效的解析与推荐,增强了No SQL数据库与Map/Reduce结合的实时性和高并发性。
- 郎泓钰任永功
- 关键词:MAP/REDUCECUCKOOHASH
- 云计算环境下的关联挖掘在图书销售中的研究被引量:8
- 2014年
- 随着大数据时代的到来,如今人们已经淹没在海量的信息当中。云计算技术的出现,为解决在海量数据中高效地挖掘出有价值的信息问题提供了新的思路。利用云计算的分布式处理和虚拟化技术的优势,提出一种基于Map/Reduce编程模型与编码操作相结合的分布式关联规则挖掘算法——MCM-Apriori算法;设计并实现一个基于Hadoop云平台的网上图书销售系统。为进一步验证该系统的高效性,在该系统中利用MCM-Apriori算法进行图书推荐服务的应用。实验对比结果表明,该系统实现了快速分析与查询、可靠存储的功能,可以明显提高关联规则挖掘效率。
- 郭健任永功
- 关键词:云计算HADOOPHBASEAPRIORI图书销售
- 基于用户满意度的网络学习资源评价研究被引量:4
- 2013年
- 用户满意度测评作为服务业普遍使用的评估方式,在数字资源领域也得到了有效应用,将其运用到现代远程教育网络学习资源评价中,可以更直观地展现资源建设和应用的效果,并体现学习者评价的主体地位,更好地改进资源建设。
- 胡志冬寇义锋
- 关键词:网络学习资源现代远程教育用户满意度评价指标
- 基于混合差分进化的滑动窗口数据流聚类算法研究被引量:2
- 2014年
- 针对传统的基于滑动窗口的数据流聚类算法存在的算法执行效率低、聚类质量较差等缺点,提出了一种基于混合差分进化的滑动窗口数据流聚类算法。该算法将数据流聚类过程分为两个部分:在线的时序窗口数据信息微簇特征向量生成和离线阶段的聚类优化。对在线生成的微簇进行微簇集合的更新与维护,利用改进的粒子群算法对离线的微簇数据信息进行适应度值的计算,将种群分为优势子种群和普通子种群,然后利用个体适应度值和平均适应度值的判别来生成当前个体环境的最优候选解,并迭代地对个体进行进化,输出具有最优适应度值的聚类集合,完成对数据流的聚类。仿真实验结果表明,算法在对数据流执行聚类时具有较高的执行效率,并且最后聚类的质量较好,算法实用性强。
- 任永功胡志冬杨雪
- 关键词:数据流聚类
- 基于改进布尔约减级数分层的大数据流滞后相关性挖掘方法
- 2016年
- 为了提高大数据流滞后相关性序列挖掘效率,提出基于改进布尔约减级数分层的大数据流滞后相关性挖掘方法.该方法根据原数据流两段序列的序列均值对大数据流序列进行布尔变换,有效降低布尔约减计算开销.通过序列元素转换及还原,缩减序列元素的数目,克服传统算法在滞后相关性计算时需要计算所有数据流序列元素之间滞后相关性的弊端.实验表明,文中方法可有效减少运算时间,在保证精度的同时提高运算效率.
- 任永功钱海振郎泓钰
- 基于信息增益特征关联树的文本特征选择算法被引量:9
- 2013年
- 传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。针对此不足,提出了一种基于信息增益特征关联树的文本特征选择算法(UDsIG)。首先,对数据集按类进行特征选择,降低类分布不均时对特征选择的影响。其次,利用特征分布均匀度改善特征项在类内分布不均对特征选择的干扰,并采用特征关联树模型对类内特征进行处理,保留强相关特征,删除弱相关和不相关特征,降低特征冗余度。最后,使用类间加权离散度的信息增益公式进一步计算,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
- 任永功杨雪杨荣杰胡志冬
- 关键词:不平衡数据集离散度
- 基于级数分层滑动窗口的大数据流滞后相关性挖掘方法被引量:1
- 2016年
- 针对大数据流序列挖掘过程中,不能快速发现序列滞后相关性的问题,提出一种基于级数分层滑动窗口的大数据流序列滞后相关性挖掘方法。该方法首先对序列按级数递增进行分层,在每层上计算滑动窗口的覆盖能力g;之后再对每层的滑动窗口计算序列的参数值;最后根据各层滑动窗口的参数值,计算序列的滞后相关系数,以此来确定序列的滞后相关性。在序列滞后相关性的求解过程中,通过奈奎斯特抽样定理证明了需要计算大数据流n个序列的log2(n)个点,就能高精度地确定序列的滞后相关性。这大大减少了计算时间,并且序列越多,计算误差越小,效率越高。实验结果表明,该方法可以大幅度地减少运算时间,在保证精度的情况下提高运算效率,尤其对大数据流序列,效果良好,应用前景广阔。
- 任永功钱海振郎泓钰