国家高技术研究发展计划(2008AAO1Z402) 作品数:11 被引量:73 H指数:5 相关作者: 付忠良 王晓京 赵向辉 蔡红亮 张景中 更多>> 相关机构: 中国科学院成都计算机应用研究所 中国科学院研究生院 中国科学院 更多>> 发文基金: 国家高技术研究发展计划 四川省科技支撑计划 中国科学院知识创新工程 更多>> 相关领域: 自动化与计算机技术 更多>>
无人值守传感器网络的高性能分布式存储算法 2014年 为解决无人值守传感器网络的数据存储可靠性问题,提出了一种具有低通信成本和低访问成本的分布式存储算法.算法采用步数为cn的并行定向随机游走机制,将网络中的k个源数据包按照一定的接收概率分散存储到网络中所有的n个节点,在每个节点形成一个存储数据包.理论分析和实验结果表明,基于该算法的存储过程完成之后,即使有部分传感器节点损坏,Sink节点只要随机收集到k+ε,ε大于等于11个存储数据包,就能成功地计算出原来的k个源数据包.与具有代表性的基于LT码的算法相比,文中算法将存储每个源数据包的通信次数从约3nlnn降至约3n;将读取源数据包的节点访问次数从大于k+100降至约k+11. 肖宜龙 蒋海波关键词:传感器网络 数据存储 分布式算法 随机游走 基于纠删码和动态副本策略的HDFS改进系统 被引量:10 2012年 为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机地分散保存到集群当中,替代原有系统的多副本容灾策略;在集群出现节点失效的情况下,通过收集与失效block相关的任意70%左右的section进行原始数据的恢复;同时根据分布式集群运行情况以及对副本数目需求的不同采用动态副本策略。通过相关的集群实验,表明Noah在容灾效率、负载均衡、存储成本以及安全性上对HDFS作了相应的优化。 李晓恺 代翔 李文杰 崔喆关键词:HADOOP分布式文件系统 分布式存储 数据容灾 动态副本 多分类问题代价敏感AdaBoost算法 被引量:31 2011年 针对目前多分类代价敏感分类问题在转换成二分类代价敏感分类问题存在的代价合并问题,研究并构造出了可直接应用于多分类问题的代价敏感AdaBoost算法.算法具有与连续AdaBoost算法类似的流程和误差估计.当代价完全相等时,该算法就变成了一种新的多分类的连续AdaBoost算法,算法能够确保训练错误率随着训练的分类器的个数增加而降低,但不直接要求各个分类器相互独立条件,或者说独立性条件可以通过算法规则来保证,但现有多分类连续AdaBoost算法的推导必须要求各个分类器相互独立.实验数据表明,算法可以真正实现分类结果偏向错分代价较小的类,特别当每一类被错分成其他类的代价不平衡但平均代价相等时,目前已有的多分类代价敏感学习算法会失效,但新方法仍然能实现最小的错分代价.研究方法为进一步研究集成学习算法提供了一种新的思路,得到了一种易操作并近似满足分类错误率最小的多标签分类问题的AdaBoost算法. 付忠良关键词:代价敏感学习 多分类问题 连续ADABOOST 基于GE码的HDFS优化方案 被引量:7 2013年 针对Hadoop分布式文件系统(HDFS)数据容灾效率和小文件问题,提出了基于纠删码的解决方案。该方案引用了新型纠删码(GE码)的编码和译码模块,对HDFS中的文件进行编码分片,生成很多个Slice并随机均匀的分配保存到集群中,代替原来HDFS系统的多副本容灾策略。该方法中引入了Slice的新概念,将Slice进行分类合保存在block中并然后通过对Slice建立二级索引来解决小文件问题;该研究方法中抛弃了三备份机制,而是在集群出现节点失效的情况下,通过收集与失效文件相关的任意70%左右的Slice进行原始数据的恢复。通过相关的集群实验结果表明,该方法在容灾效率、小文件问题、存储成本以及安全性上对HDFS作了很大的优化。 朱媛媛 王晓京关键词:HADOOP分布式文件系统 纠删码 数据容灾 视图的秘密分享及其代数编码方法 被引量:5 2012年 视图的秘密分享是图像信息安全领域独具吸引力的研究问题。寻求秘密视图完全的(Perfect)和理想的(Ideal)门限秘密分享方案(也称图像门限分享的完备方案),则是其中富有挑战性的未决课题。文中引入灰度值域GF(2m)上像素矩阵秘密分享的新观点和相应的代数几何编码方法,实现了数字图像(t,n)门限秘密分享的一种完备方案。该方案能够将一幅或多幅秘密图像编码为n幅各具随机视觉内容,同时又共具(t,n)门限结构的影子图像(或称份额图像)。证明了这种秘密分享方案的(t,n)门限结构不仅是完全的而且也是理想的,并给出了提高像素灰度值域GF(2m)上图像秘密分享算法效率的"m位像素值的分拆与并行"方法。分析表明,该图像秘密分享方法可以应用于高安全等级的秘密图像的网络多路径传输、保密图像信息的分散式存储控制、高维图形码(Bar-code in k dimension)和弹出码(Popcode)等新一代信息载体技术的识读控制等各方面。 王晓京 方佳嘉 蔡红亮 王一丁关键词:(T,N)门限 应用于分布式存储系统的网络编码方法研究 2013年 针对传统分布式存储网络负载不均而使用现有网络编码方案运算开销又较大的问题,提出一种新的线性随机网络编码方法——HE码,构建随机等重码作为编码矩阵,编码参数灵活,编码过程仅需异或运算,编码后信息向量使原始信息均匀分布。实验结果表明,基于HE码的线性随机网络编码方案比传统方案在均衡负载上有明显的优势,同时实现了线性的计算复杂度,为解决云计算、P2P网络等存在的网络瓶颈问题,提供了工程上可实用的方法。 何沅泽 王晓京 张景中关键词:分布式存储 负载均衡 基于伪双目立体成像自动识别新技术 2012年 现有的人民币伪钞等打印信息的识别技术主要是对钞票上的安全线、水印、磁性油墨、荧光油墨等物理特性进行识别。随着伪造技术的发展,特别是随着HD90、TJ55、AZ88、WL15、YX86等仿冒手段不断提高的伪钞的出现,对人民币的鉴伪技术提出了一种更高的要求。提出了一种基于人民币凹版印刷特性,利用普通平板扫描仪进行钞票的伪双目立体成像,对其浮雕纹理进行计算机自动识别,进而实现真、伪钞鉴别的新方法。通过实验验证了该方法的正确性和实用性。给出了基于此方法的伪双目立体成像扫描仪的快速验钞机原型设计。 曹晟 聂旭云 陈峥关键词:验钞机 自动识别 只需异或运算的秘密分享方案 被引量:1 2015年 针对传统基于插值多项式的秘密分享方案,需要复杂的多项式运算,当涉及的数据比较大时,运算效率特别低的问题,提出一种结合数据分块方法以及仅需要在GF(2)上的异或运算的秘密分享方案,并应用于大规模数据的安全保护机制。理论分析与实验结果表明,与传统基于插值多项式的秘密分享方法相比,所提方法在运行效率上提升了19.3%。 袁琦钊 蔡红亮 张景中 夏航宇关键词:大规模数据 信息安全 秘密分享 RS码 异或运算 AdaBoost算法的推广——一组集成学习算法 被引量:9 2010年 针对AdaBoost算法只适合于不稳定学习算法这一不足,基于增加新分类器总是希望降低集成分类器训练错误率这一思想,提出了利用样本权值来调整样本类中心的方法,使AdaBoost算法可以与一些稳定的学习算法结合成新的集成学习算法,如动态调整样本属性中心的集成学习算法、基于加权距离度量分类的集成学习算法和动态组合样本属性的集成学习算法,大大拓展了AdaBoost算法适用范围。针对AdaBoost算法的组合系数和样本权值调整策略是间接实现降低训练错误率目标,提出了直接面向目标的集成学习算法。在UCI数据上的实验与分析表明,提出的AdaBoost推广算法不仅有效,而且部分算法比AdaBoost算法效果更好。 付忠良 赵向辉 苗青 姚宇关键词:ADABOOST 分类器组合 分类器动态组合及基于分类器组合的集成学习算法 被引量:3 2011年 针对目前基于分类器静态组合的集成学习算法难于推广的问题,根据组合分类器分类错误最小化原则,研究了组合系数随分类器输出变化而变化的分类器动态组合理论,包括组合系数的选取、组合分类器分类错误率的估计等。证明了在分类器相互独立时,一些动态组合分类器等价于Bayes统计推断。提出了基于分类器组合的通用集成学习算法,并把AdaBoost、Real AdaBoost、Gentle AdaBoost算法推广到了多分类问题。证明了按照集成学习算法得到的分类器,其动态组合的有效性可不依赖于分类器的独立性,这支撑了基于分类器相互独立假设来研究分类器组合的有用性。最后,通过UCI数据实验验证了动态组合的有效性。 付忠良 赵向辉关键词:多分类问题 ADABOOST