国家自然科学基金(50604012)
- 作品数:25 被引量:65H指数:5
- 相关作者:张东站冯少荣段江娇薛永生郑艳红更多>>
- 相关机构:厦门大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 高效的用户访问预测新算法被引量:1
- 2010年
- 针对基于Web日志挖掘的用户访问预测经典算法的不足,提出了基于Markov链和关联规则的预测算法(MAPA).使用二阶Markov链找到用户下一步或将来可能访问的页面集,生成预测候选集;使用二项关联规则从正向和反向2个角度修正Markov的预测结果,从而生成最后的预测页面.通过引入用户反馈机制,提出了带反馈的Markov预测算法(MPAF),即在预测过程中逐步构造历史预测树,把历史预测信息保存到历史预测树中,并根据用户的反馈来判断预测的正确性.在预测过程中,用二阶Markov预测算法生成预测候选集,再利用历史预测信息动态地调整预测算法,从而生成预测页面.理论分析证明,这2种预测算法具有线性时间复杂度的预测效率.实验结果表明,MAPA和MPAF在预测准确率上平均提高5%和10%.
- 冯少荣张东站
- 关键词:数据挖掘WEB日志挖掘关联规则
- 基于BIPL的Web频繁访问模式挖掘
- 2008年
- 挖掘频繁访问模式是Web日志挖掘的一个重要任务。针对类Apriori算法和GITC算法的不足,提出了基于双亲链的单次扫描求交的Web频繁访问模式挖掘算法—BIPL,该算法首先对用户的访问模式两两进行交集运算,生成候选访问模式,并在求交集过程中保存各个候选访问模式的双亲模式,然后通过简单的求和运算,计算出各个候选访问模式的支持数。最后通过理论分析和实验验证,该算法是稳定的和高效的。
- 吴雅双张东站
- 关键词:WEB日志挖掘频繁访问模式
- 基于模式树的XETL过程研究被引量:1
- 2009年
- XML数据与传统的关系型数据存在的差异,使得传统数据仓库的ETL方法已经不适用于XML数据,而目前也没有专门的、有效的适用于XML数据的ETL方法。针对这一问题,提出基于模式树的XML转换处理过程——XETL。从数据模型和谓词模式研究XETL模型,基于XETL模型定义ETL过程中属性选择、空置处理、聚合以及属性重命名4类主要的转换处理操作。
- 郭有限张东站
- 关键词:模式树
- FVTreeMiner:无序频繁子树挖掘算法
- 2010年
- 在挖掘无序树频繁模式的过程中,大多数的算法都是先产生候选者,再进行模式匹配判断它是否为频繁子树。产生候选者本身就需要消耗很大的空间来保存,并且要在复杂的树结构里做匹配也是件难事,它会影响整个挖掘过程的效率。为了尽量避免产生不必要的候选者,提高发现频繁模式的效率,基于对相关算法的研究,引进树投影资料库的概念,并在RootedTreeaVfiner算法的基础上,采用其模式延伸方法和广度优先标准型式概念,提出子树频繁度、频繁可延冲点串的概念,从而更有效系统地枚举所有的频繁模式树,并给出无序频繁子树挖掘算法FVTreeMiner。经系列实验结果证实了该算法合理、高效,并可以减少一定的内存开销和运行时间开销。
- 陈冬菊张东站段江娇
- 关键词:频繁子树
- CFE:一种基于连分数的动态XML编码
- 2009年
- 论述了一种基于连分数的动态XML编码,首先介绍了CFE编码的概念,在此基础上把CFE应用到区间编码和前缀编码,接着对CFE编码的更新算法进行了阐述,最后进行实验对比,说明CFE编码是可行的。
- 曾志民江弋张东站
- 关键词:连分数
- IDD:DDE编码改进方法
- 编码技术是XML查询处理的基础,为适应XML更新需要,近年来提出很多动态编码方法,大致可分为基于位串的编码和基于向量的编码.当XML更新时,动态编码方法应该产生最短位长新编码分配给插入节点.位串编码具有这个性质,而对于向...
- 庄灿伟冯少荣林子雨张东站
- 文献传递
- 基于神经网络和模式匹配的股票预测研究被引量:6
- 2010年
- BP神经网络是分析股票数据最流行的工具之一。近期对模式匹配算法的研究表明模式匹配简化了股票趋势预测的复杂度并为股票市场预测提供了一种简单有效的方法。文中分别阐述了BP神经网络和模式匹配识别的原理,并提出将两种算法相结合,建立一个基于BP神经网络和模式匹配识别的股票市场分析和预测系统。这个系统克服了神经网络预测系统目标函数存在局部最小和模式匹配识别预测系统缺少股票价格自身变化特性的缺点,具有两种算法在股票预测应用方面的优势。通过对泰山石油的股价进行分析来测试这个系统。实验结果表明此方法不仅收敛速度快、预测精度高,而且易于操作,具有一定应用价值。
- 林倩瑜冯少荣张东站
- 关键词:股票反向传播神经网络非线性
- 基于同义词词林的文本特征选择方法被引量:5
- 2012年
- 特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度.
- 郑艳红张东站
- 关键词:同义词词林遗传算法文本分类
- 公路物流智能配载的研究和装载算法设计被引量:5
- 2012年
- 根据公路运输中物流配载的原则和特点,结合专家知识和策略,提出了物流智能配载的设计思想和实现方法,建立了在不同运单类型、货品属性、出车地点、装车要求等多维度约束条件下的智能配载模型,给出了详细的物流配载术语定义和配载规则。提出了一种基于启发式思想和贪婪思想的混合算法解决货品装箱问题。使用ASP.NET开发环境,实现物流运输智能配载系统,模拟部分物流公司货运数据进行测试,测试结果显示了该智能配载方法的有效性与高效性。
- 蓝启明张东站
- 关键词:整车零担三维装箱贪婪算法
- 一种基于划分和密度的快速聚类算法
- 聚类是数据挖掘的重要组成部分;基于划分的聚类算法有近线性时间复杂度的优点,基于密度的聚类算法能发现任意形状的聚类。提出基于划分和密度的聚类算法CUPD(clustering using partition and den...
- 赖桃桃冯少荣张东站
- 关键词:聚类算法
- 文献传递