英昌甜 作品数:35 被引量:181 H指数:8 供职机构: 新疆大学信息科学与工程学院 更多>> 发文基金: 国家自然科学基金 新疆维吾尔自治区自然科学基金 新疆维吾尔自治区高校科研计划 更多>> 相关领域: 自动化与计算机技术 经济管理 更多>>
基于小文件的内存云存储优化策略 被引量:6 2014年 由于内存云RAMCloud采用日志段的方式存储数据,因此当大量小文件存储于RAMCloud集群时,每个小文件独占整个段,会产生较多的段内碎片,从而导致内存的有效利用率较低以及大量的内存空间浪费。为了解决这个问题,提出基于文件分类的RAMCloud小文件存储优化策略。该策略首先根据文件的相关特性将小文件分为结构相关文件、逻辑相关文件以及相互独立文件三类;然后在存储时对结构相关的文件使用文件合并算法,逻辑相关和相互独立的小文件则使用分组算法。实验结果表明:同未进行优化的RAMCloud存储策略相比,该策略能有效提高集群内存利用率。 英昌甜 于炯 鲁亮 刘建矿关键词:存储策略 云计算环境下新疆遥感应用数据中心的挑战与机遇 被引量:14 2015年 遥感数据量的飞速增长和数据中心的高能耗逐渐暴露出现有云计算框架(GFS、HDFS等)在设计时缺少对能耗因素的考虑,使得负载很低时系统中所有计算节点仍需保持活动状态来维持系统可用性与可靠性。为此本文从新疆云计算数据中心的设计着手,结合异构遥感大数据的数据特征(时空、光谱、分辨率等)和应用特点(浏览,显示,存取等),提出了云计算环境下遥感大数据存储和管理的建议:1.在分布式文件系统中采用节点休眠技术的数据组织和副本策略;2.通过自适应的虚拟机动态迁移技术实现空闲节点休眠。利用软节能技术改进虚拟化云计算平台应用数据层对节能计算的适应能力,以实现云环境下遥感大数据的节能、高效、透明存储和管理。 钱育蓉 于炯 英昌甜 杨兴耀 鲁亮 卞琛关键词:节能计算 虚拟机迁移 副本策略 Spark框架并行度推断算法 被引量:5 2019年 分布式计算集群Spark宽依赖并行度取决于用户设定参数,对于不同的作业类型或数据集,硬编码的并行度参数设定难以发挥集群的最大计算能效。针对这一问题,首先对Spark作业执行方式进行深入分析,建立作业调度模型,提出宽依赖计算代价、资源空置率和溢写概率的定义;然后分析任务并行度对作业执行时间的影响,证明并行度取值具有合理区间,提出并行度推断算法的优化目标。最后根据模型定义进行目标求解,设计批处理内存计算框架的并行度推断算法(parallelismdeduction algorithm, PDA),通过构建的数据总量、执行区预留比、操作闭包集合、资源表等多个基础数据,计算符合资源需求表且具有最大资源利用率和最小开销的任务并行度;PDA算法在作业的各个Stage中迭代执行,根据计算环境优化调度方案提高性能。实验表明,PDA算法提高了Spark框架的作业执行效率,针对不同类型作业均具有良好的普适性。 卞琛 卞琛 于炯 修位蓉 廖彬 英昌甜关键词:SPARK 基于用户访问特征的云存储副本动态管理节能策略 被引量:2 2014年 针对云计算环境下服务器利用率低、能耗浪费严重的问题,提出一种基于用户访问特征的云存储副本动态管理节能策略。通过把用户访问特征的研究转化为计算Block的访问热度,根据节点的整体访问热度,DataNode主动申请休眠从而达到节能的目的。给出了详细的休眠申请、休眠判断算法,以及在DataNode休眠期间出现对已休眠Block进行访问的情况时如何处理的解决方案。实验结果表明,采用该策略后可休眠29%~42%的DataNode,减少能耗31%,且服务器的用户响应时间不受影响。经过性能分析,得出该策略在保证数据可用性的同时可有效地降低能耗。 王政英 于炯 英昌甜 鲁亮 班爱琴关键词:云计算 节能计算 内存计算框架局部数据优先拉取策略 被引量:4 2017年 内存计算框架的低延迟特性大幅提高了集群的计算效率,但Shuffle过程的性能瓶颈仍不可规避.宽依赖的同步操作导致大多数工作节点等待慢节点的计算结果,同步过程不仅浪费计算资源,更增加了作业延时,这一现象在异构集群环境下尤为突出.针对内存计算框架Shuffle操作的同步问题,建立了资源需求模型、执行效率模型和任务分配及调度模型.给出了分配效能熵(allocation efficiency entropy,AEE)和节点贡献度(worker contribution degree,WCD)的定义,提出了算法的优化目标.根据模型的相关定义求解,设计了局部数据优先拉取算法(partial data shuffled first algorithm,PDSF),通过高效节点优先调度,提高流水线与宽依赖任务的时间重合度,减少宽依赖Shuffle过程的同步延时,优化集群资源利用率;通过适度倾斜的任务分配,在保障慢节点计算连续性的前提下,提高分配任务量与节点计算能力的适应度,优化作业执行效率;通过分析算法的相关优化原则,证明了算法的帕累托最优性.实验表明:PDSF算法提高了内存计算框架的作业执行效率,并使集群资源得到有效利用. 卞琛 于炯 修位蓉 钱育蓉 英昌甜 廖彬关键词:作业调度 异构环境 评分可信度条件下的协同过滤模型 2013年 通过对用户信任度进行量化,再从项目的角度进行调整,最终获得了较为准确的评分可信度度量.在此基础上,建立了评分可信度矩阵,并对提出的四种可信度相似性模型进行了优化.实验比较结果表明,基于不同的数据集,新提出的相似性模型在合理的时间开销下,相对于传统模型在项目预测准确性方面拥有出色的表现. 杨兴耀 于炯 吐尔根.依布拉音 英昌甜 闫歌关键词:推荐系统 协同过滤 基于动态等待时间阈值的延迟调度算法 被引量:8 2012年 针对已有的延迟调度算法存在的两个问题,即建立在节点会很快空闲的理论假设下有一定限制,当节点不会很快空闲时算法性能严重下降和基于静态的等待时间阈值不能适应云计算数据中心动态的负载变化及不同用户作业的需求,提出了一种基于动态等待时间阈值的延迟调度算法(dynamic waiting time delay scheduling,DWTDS)。该算法通过给无本地数据节点设置节点最大等待时间,以适应节点不会很快空闲的情况;通过分析数据中心各动态参数,根据概率模型调整作业的等待时间阈值。实验验证该算法在响应时间及负载均衡性方面优于已有的延迟调度算法。 邹伟明 于炯 英昌甜 胡丹关键词:云计算 HADOOP MAPREDUCE 内存云分级存储架构下的数据迁移模型 被引量:13 2015年 为了实现在线海量数据的高效存储与访问,在内存云分级存储架构下,提出一种基于数据重要性的迁移模型(MMDS)。首先,通过数据本身的大小、时间重要性、用户访问总量等因素对数据本身的重要性进行计算;其次,采用推荐系统中相似用户和PageRank算法中的重要性排名思想对数据的潜在价值进行评估,数据重要性和潜在价值共同决定了数据的重要程度;然后基于数据的重要性,设计了数据迁移机制。实验结果表明:该模型能够识别出数据的重要程度并分级放置数据,相比最近最少使用(LRU)、最近最不常用(LFU)、基于价值评估的数据迁移(MSDV)等算法,提高了存储系统的数据访问命中率。该模型能够缓解部分存储压力,数据访问性能也有了一定的提高。 郭刚 于炯 鲁亮 英昌甜 尹路通关键词:数据迁移 云计算环境下能量感知的任务调度算法 被引量:8 2012年 云计算环境下传统独立任务调度算法容易导致较高资源能耗或较大任务时间跨度.针对该问题,文中提出了两种能量感知的任务调度算法,并利用遗传算法并行化搜索合理调度方案.两种算法在搜索过程中,分别通过能耗时间归一和能耗时间双适应度方法定义适应度函数并进行个体选择.仿真结果表明,与单独考虑时间或能耗相比,这两种算法能够更有效地缩短任务执行时间跨度,降低资源能耗. 英昌甜 于炯 杨兴耀关键词:云计算 任务调度 能量感知 时间跨度 并行计算框架Spark的自动检查点策略 被引量:1 2017年 针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DAG结构,获取RDD的血统长度和操作复杂度等属性,计算RDD权重;然后,CAS算法选择权重大的RDD作为检查点进行异步备份,来实现数据的快速恢复.结果表明:在使用CAS算法时,不同数据集执行时间和检查点容量大小都有所增加,其中Wiki-Talk由于其计算量较大,增幅明显;使用CAS算法设置检查点后,在单点失效恢复的情况下,数据集的恢复时间较短.因此,自动检查点策略在略微增加执行时间开销的基础上,能够有效地降低作业的恢复开销. 英昌甜 于炯 卞琛 鲁亮 钱育蓉关键词:SPARK