吉林省自然科学基金(201115020)
- 作品数:4 被引量:27H指数:2
- 相关作者:李雄飞王婧李巍王强李军更多>>
- 相关机构:吉林大学教育部长光卫星技术有限公司更多>>
- 发文基金:吉林省自然科学基金吉林省科技发展计划基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 考虑层数信息的XML文档聚类方法
- 2014年
- 提出了一种层数敏感的XML文档数据集聚类方法CXLI。首先提出结构表概念,消除XML文档的重复和嵌套结构。然后提出考虑层数信息的XML文档基本编辑操作约束。进一步给出考虑层数信息的XML文档间相似性度量方法。最后使用凝聚型层次聚类方法对XML文档数据集进行聚类。在ACM SIGMOD数据集和人工生成的数据集上进行了实验验证,结果表明:在计算时间基本相同的情况下,CXLI方法具有更好的精确度。
- 刘兆军赵浩宇王婧李雄飞李巍
- 关键词:数据挖掘可扩展标记语言聚类层数
- XML空间频繁变化结构挖掘方法被引量:1
- 2013年
- XML数据在实际使用过程中不断发生改变,针对XML数据动态可变的特点,提出一种根据XML数据变化过程挖掘XML空间频繁变化结构SFCS(Spatial Frequently Changing Structure)的方法,首先提出XML子结构空间度量方法,通过结构空间变化度SSCD、版本空间变化度VSCD和空间变化程度SCD这3个度量值衡量XML子结构的空间变化频繁性并提出SFCS定义.进一步,提出一种用于保存XML空间变化信息和发现SFCS的数据模型SC-DOM,论证了XML编辑操作对子结构空间的影响并据此提出SC-DOM状态动态迁移方式,最后提出根据SC-DOM发现SFCS的算法并讨论算法复杂度.实验结果表明SFCS是频繁变化的结构,使用SC-DOM模型进行SFCS挖掘是有效且可扩展的.
- 李巍李雄飞郭建芳
- 关键词:数据挖掘XML
- 云计算中的数据放置与任务调度算法被引量:22
- 2014年
- 在海量数据的云计算中,通常面临着数据传输时间长的问题.针对目前大多数数据放置与任务调度算法存在的副本静态性和传输标准精确度的不足,提出了一种动态调整副本个数、以时间作为衡量数据传输标准的数据放置与任务调度算法.该算法根据数据访问频率和存储大小,动态地调整副本个数,一方面减少了低访问率副本对存储空间的浪费;另一方面也减少了高访问率副本所需跨节点传输次数.考虑到节点间网络带宽的差异性,确定以数据传输时间作为传输衡量标准,提高了传输标准的精确度.实验结果表明,除了任务集和网络节点均较少的情况外,该算法均能有效地减少数据传输时间,甚至在任务集合和网络节点较多的情况下,能减少近50%的传输时间.
- 王强李雄飞王婧
- 关键词:云计算数据放置任务调度数据传输数据副本
- 基于整数数据的文档压缩编码方案被引量:4
- 2016年
- 提出了针对整数数据的CSN-2压缩算法,并将其应用于任意文档的压缩,且CSN-2压缩算法不需额外的数据支持。通过研究CSN-2解压算法,提出了可以正确还原原数据的CSNE-2解压算法,并对解压算法结果的唯一性和正确性进行了理论及实验检验。并通过与其他压缩方案的实验比较,结果表明CSN-2压缩算法对整数型文档具有较高的压缩率,且对任意文档均具有压缩效果。
- 特日跟江晟李雄飞李军
- 关键词:计算机软件数据压缩文本压缩