国家高技术研究发展计划(2009AA01Z131)
- 作品数:8 被引量:50H指数:4
- 相关作者:于戈谷峪陈默董晓梅于晓聪更多>>
- 相关机构:东北大学中国刑事警察学院教育部更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于LDA的潜在语义区划分及Web文档聚类算法被引量:19
- 2011年
- 该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,该文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。
- 刘振鹿王大玲冯时张一飞方东昊
- 关键词:LDA潜在语义文档聚类
- 基于MapReduce的数据聚集运算算法被引量:6
- 2011年
- 为解决数据仓库中海量数据的处理效率问题,可以采用数据聚集预计算的方法,但是针对海量级别数据的聚集运算非常耗费计算资源,需要巨大的计算能力和存储能力,因此提出了一组基于MapReduce的面向海量数据的数据聚集运算算法,主要包括数据的选择、投影以及等值连接等,并在此基础上,实现了计数、求和和均值等聚集运算,形成了比较完整的面向海量数据的聚集运算算法。实验结果表明,该算法充分利用了集群系统的计算能力和存储能力,极大地提高了海量数据的聚集运算效率和基于聚集运算结果上的数据查询效率。
- 冷芳玲鲍玉斌高伟于戈
- 关键词:数据仓库MAPREDUCE联机分析处理
- 支持全文检索的XQuery查询处理及优化的研究被引量:1
- 2010年
- XQuery作为由W3C组织提出的一种XML查询语言,正在成为当前应用于XML数据库中对XML数据操作的一个规范。为了提高对XML中文本内容的查询支持,W3C又进一步设计了支持全文检索功能的语法规范。针对最新的XQuery及全文检索语法特征,文章提出了支持全文检索功能XQuery的解析与查询执行策略,为XQuery的查询处理提供解决方案。在此基础上,针对全文检索功能的查询执行计划,提出了适用于窗口查询,距离查询,是否排序查询的优化方案,以减少查询执行的代价,提高XQuery查询的效率。
- 郭晓磊赵利聂铁铮
- 关键词:XQUERYXML查询处理
- 一种应用于Deep Web环境下的重复记录识别模型
- 随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字...
- 朱命冬申德荣寇月聂铁铮于戈
- 文献传递
- 基于主机行为异常的P2P僵尸网络在线检测方法被引量:4
- 2012年
- 僵尸网络已经成为当前最为严重的网络威胁之一,其中P2P僵尸网络得到迅速发展,其自身的通信特征给检测带来巨大的挑战.针对P2P僵尸网络检测技术的研究已经引起研究人员的广泛关注.提出一种P2P僵尸网络在线检测方法,首先采用信息熵技术发现网络流量中的异常点,然后通过分析P2P僵尸网络中主机的行为异常,利用统计学中的假设检验技术,从正常的网络流量数据中识别出可疑P2P僵尸主机,同时根据僵尸主机通信模式的相似性进行最终确认.实验结果表明该方法能够有效实现P2P僵尸网络的在线检测.
- 于晓聪董晓梅于戈
- 关键词:P2P僵尸网络信息熵聚类
- 一种面向不确定对象的可见k近邻查询算法被引量:11
- 2010年
- 真实世界中,常存在很多障碍物,影响空间对象到查询点的可见性及距离,可见k近邻查询查找距查询点最近的k个可见对象,是时空查询领域的一类重要算法.由于度量设备误差以及通信开销的限制等因素,空间对象位置不确定因素广泛存在.文中拟对不确定对象执行可见k近邻查询,提出了概率可见k近邻(PVkNN)查询,即查找前k个成为查询点最近邻居概率最大的节点.为了高效地执行这一查询,文中提出了k-界限剪枝方法,基于可见质心的紧缩过滤以及对不可见对象的剪枝策略,从空间角度过滤掉不符合条件的对象.为避免对候选集合中每个对象的概率都进行精确计算,从概率角度提出了根据概率上下限来对候选集合进行进一步的求精方法,采用近似采样技术来获取可见区域的比例,实现了对PVkNN的高效计算.采用真实和模拟数据集设计实验,充分验证了算法的效率和精度.
- 王艳秋徐传飞于戈谷峪陈默
- 数据空间中数据组织模型以及关联关系发现模型的研究
- 数据资源之间关联关系的发现问题是数据空间的一个重要研究方向,它是解决数据空间中其他问题如构建索引、提供浏览、查询、Lineage等服务的基础.然而目前针对数据空间的研究大都是在假设已经得到数据资源之间关联关系的基础之上进...
- 董彦磊申德荣寇月聂铁铮
- 关键词:数据空间领域本体频繁项集
- 文献传递
- 一种障碍空间中不确定对象的连续最近邻查询方法
- 近年来,基于位置的服务获得了越来越广泛的关注,其中最近邻查询是最常用的一种查询方式.测量手段的不准确性以及数据本身的性质导致不确定性在位置数据中普遍存在,这种不确定性会对最近邻查询结果产生影响.空间中障碍物的存在也给空间...
- 李传文谷峪李芳芳于戈
- 关键词:最近邻
- 文献传递
- P2P僵尸网络的快速检测技术被引量:3
- 2010年
- 以僵尸网络为平台的攻击发展迅速,其控制协议与结构不断演变,基于P2P协议的分布式结构僵尸网络得到快速发展.现有的P2P僵尸网络检测技术大都通过分析历史网络流量信息来进行离线检测,很难保证检测结果的准确性,也较难满足实时性需求.针对这种情况,提出P2P僵尸网络快速检测技术,首先采用一种改进的增量式分类技术,在线分离出满足P2P协议的网络流量;然后利用P2P僵尸主机的通信模式具有行为相似性和周期性的特点,通过动态聚类技术和布尔自相关技术,快速检测出可疑僵尸主机.实验结果表明该技术能够高效实现P2P僵尸网络的快速检测.
- 于戈于晓聪董晓梅秦玉海
- 关键词:P2P僵尸网络动态聚类
- 一种障碍空间中不确定对象的连续最近邻查询方法被引量:8
- 2010年
- 近年来,基于位置的服务获得了越来越广泛的关注,其中最近邻查询是最常用的一种查询方式.测量手段的不准确性以及数据本身的性质导致不确定性在位置数据中普遍存在,这种不确定性会对最近邻查询结果产生影响.空间中障碍物的存在也给空间数据查询带来了挑战.文中研究存在障碍物的空间中不确定对象连续最近邻查询的处理方法,设计了一种剪枝策略大幅降低需要计算的不确定对象数目,并进一步提出了障碍空间中不确定对象最近邻查询安全区域的概念及安全区域生成算法.设计了安全区域的索引存储方法.实验结果表明,文章所提出的方法具有良好的效率和可扩展性.
- 李传文谷峪李芳芳于戈
- 关键词:最近邻