王国仁 作品数:351 被引量:1,769 H指数:22 供职机构: 东北大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 高等学校优秀青年教师教学科研奖励计划 更多>> 相关领域: 自动化与计算机技术 经济管理 机械工程 电子电信 更多>>
基于组合SVR的非平稳时间序列的模糊建模方法 被引量:1 2006年 本文介绍一种对非平稳时间序列建模的新方法.参考Janos Abonyi提出的应用于时间序列的模糊分块算法,将该算法与改进的支持向量回归模型结合起来.首先,提出一种改进的支持向量回归的表达形式;然后,通过启发式的加权方法将模糊分块的信息与SVR结合起来;最后,提出一种基于组合SVR的建模方法.实验结果表明,本文提出的方法对于非平稳时间序列的建模具有较高的实用价值. 林树宽 支力佳 张少敏 乔建忠 王国仁 于戈基于滑动窗口的Top-K概率频繁项查询算法研究 被引量:6 2012年 频繁项查询在网络监控、网络入侵检测、关联规则挖掘等方面是一项非常重要的技术.该技术在静态的不确定数据中已经得到了深入的研究.但随着数据流特征和不确定性表现的日益明显,在不确定数据流环境下的查询已经成为一项新的研究课题.因此基于数据流普遍采用的滑动窗口模型,提出了一种高效的概率Top-K频繁项查询算法sTopK-UFI.该算法避免了每次窗口更新都重新计算查询答案,而是利用现有的计算结果进行增量更新,从而减少查询代价.另外,该算法基于窗口中的现有数据对未来可能成为频繁项的元素进行预测,并利用泊松分布计算元素成为频繁项的概率上下界,提出相应的过滤策略,可以显著减少检测数据的数量,提高查询效率.实验结果表明,所提出算法可以有效地减少候选集、降低搜索空间、改善在不确定数据流上的查询性能. 王爽 王国仁关键词:频繁项 不确定数据 数据流 数据流上动态轮廓查询处理技术的研究 被引量:8 2016年 轮廓查询(Skyline)是一种典型的多目标优化问题.动态轮廓查询(Dynamic Skyline)是轮廓查询的一个重要变种,其目标是对于一个给定的查询点q,返回在各维度上最接近q的所有点.对比轮廓查询,动态轮廓查询根据查询点q的位置变动,可以更加灵活地返回查询结果.文中关注数据流上动态轮廓查询处理,此问题在多目标决策方面具有非常重要的应用.为有效地解决该问题,首先提出了一种组合式索引结构来管理数据流上的点,该索引结构包括两个部分:对整体数据使用分层次划分结构进行维护;对子划分内部数据采用倒排索引结构进行维护.该组合式索引结构具有更新快、过滤性能高、适合任意数据分布等优点,可以提高动态轮廓的查询处理效率.然后,基于该组合式索引结构,提出了基础的数据流上动态轮廓查询算法(Basic Dynamic Skyline Query over Data Stream,BDS2).通过维护少量的数据,BDS2可以快速地计算出数据流上的动态轮廓集合.然而BDS2在处理个别更新时,会有较大的时间延迟,为了更稳定地计算数据流上的动态轮廓,避免更新某些点时计算量急剧增加,进一步提出了改进的数据流上动态轮廓查询算法(Improved Dynamic Skyline Query over Data Stream,IDS2).最后,通过一系列的实验验证了文中所提出算法的有效性. 白梅 信俊昌 王国仁 王习特关键词:数据流 倒排索引 基于外存后缀树的top-k局部比对算法 2016年 局部比对是一种衡量字符串间相似程度的技术,它在生物信息学领域具有十分重要的作用.介于此,许多学者已对其进行了深入的研究.然而,随着数据规模的扩大,常规的内存算法已不适用于支持大规模文本数据的局部比对.为解决上述问题,该文研究了基于外存后缀树的top-k局部比对算法.它从根本上消除了内存空间对算法的束缚.为了提高算法的性能,该文首先将经典内存算法中的过滤策略引入该文.通过适当的修改,这些策略可以基于外存后缀树有效地降低计算开销.其次,该文提出一种巧妙的算法支持top-k局部比对查询.该算法通过引入启发式策略有效规避了TA算法的固有问题.具体地,它一方面可以提高算法的过滤能力,另一方面可以降低候选对象的维护代价.再次,该文对外存后缀树和磁盘的工作原理进行了研究.基于此,该文提出一种槽的结构支持查询.该结构既可以实现磁盘的顺序访问,又可以降低磁盘的访问次数.因此,它可以有效提高算法的查询效率.最后,大量的实验验证了该文所提出算法的有效性. 王斌 朱睿 杨晓春 王国仁 于戈关键词:TOP-K 一种用于基因表达数据的无参数聚类算法 被引量:2 2005年 提出了一种用于基因表达数据的无参数聚类算法。该算法把多维数据的模糊聚类方法与CTWC相结合,并引入基于范数的方法进一步对该方法加以改进和论证。将该算法应用于真实的结肠癌基因表达数据集,确定了含8个基因的特征基因组合,该特征基因组合不仅达到了90%左右的结肠癌样本识别率,还能鉴别结肠癌样本的亚型。实验结果充分验证了这种算法的可行性。 赵宇海 王国仁 印莹关键词:基因表达数据 模糊聚类 范数 基于核方法的非线性时间序列预测建模 被引量:4 2007年 提出了一种基于核的非线性时间序列预测建模方法。对非线性时间序列的相空间进行重构以确定其嵌入维数,并提出一种基于核主成分分析的非线性时间序列相空间重构方法,针对时间序列的时序特征,采用一种加权的支持向量回归模型对时间序列预测建模。在不同基准数据集上的实验结果表明,与通常的基于普通支持向量回归的建模方法相比,该文所提出的预测建模方法具有较高的精度,说明所提方法对非线性时间序列的预测建模是有效的。 林树宽 乔建忠 王国仁 郑刚 董俊关键词:核主成分分析 支持向量回归 相空间重构 障碍空间中不确定数据聚类算法 被引量:11 2012年 近些年,由于数据采集的不精确和数据本身的不确定性,使不确定性在位置数据中普通存在。在障碍空间中,聚类不确定数据面临新的挑战。提出了障碍空间中聚类不确定数据的OBS-UK-means(obstacle uncertain K-means)算法,并提出了分别基于R树和Voronoi图的两种剪枝策略和最近距离区域的概念,大大减少了计算量。通过实验验证了OBS-UK-means算法的高效性和准确性,同时证明了剪枝策略在不损害聚类有效性的情况下,能够有效地提高聚类效率。 曹科研 王国仁 韩东红 袁野 胡雅超 齐宝雷关键词:聚类 不确定数据 XML函数依赖的定义及分析 函数依赖是XML数据约束研究的重要组成部分.针对XML中存在的复杂的多种形式的函数依赖约束,分析了数据约束的特点,引入节点值相等的概念,提出了一种DTD的路径语言,进而提出了一种新的XML函数依赖(XFD)的定义,包括相... 赵相国 王国仁 张恩德 丁大斌 霍欢关键词:XML 函数依赖 文献传递 一种考虑基因间相互关系的投影聚类算法 2009年 针对现有基因表达数据投影聚类算法假定基因相互独立,根据每个基因的独立区分度选择相关投影空间的不足,提出了根据基因间相互关系进行投影聚类的算法MOLION.通过将基因表达数据转换为序列数据,基于设定的用户偏好函数,采用分界判定法对样本穷举树进行快速地深度优先遍历,同时应用了高效的削减和优化策略.几个真实微阵列数据集上的实验证实了提出的算法具有较高的效率和预测准确性,为考察疾病表型的形成原因提供了一个新视角. 赵宇海 王国仁 于长永 毛克明关键词:基因表达数据 投影聚类 基因序列 数据挖掘 基于路径频率树的XML流数据剪切分片技术 2008年 与传统数据库对XML数据的处理不同,对XML流数据的处理不仅受实时性的约束,还受存储空间的限制.在Hole-Filler模型的基础上,首先利用XML的查询统计信息,定义了路径频率树,提出了基于兄弟关系的XML流数据剪切分片策略及其算法.在此基础上,提出了基于父子关系的XML流数据剪切分片策略及算法.这两个基于路径频率树的剪切算法有效地提高了XML片段的利用率,增强了XML片段的内聚性.实验结果表明,基于路径频率树的XML剪切算法在剪切时间、查询时间、空间消耗等方面都表现出较好的性能. 霍欢 韩东红 回晓云 王国仁关键词:XML 数据流 剪切