国家高技术研究发展计划(2013AA013204)
- 作品数:40 被引量:867H指数:12
- 相关作者:孟小峰冯志勇王伟平孟丹王鑫更多>>
- 相关机构:中国人民大学天津大学中国科学院更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 面向大数据分析的分布式文件系统关键技术被引量:74
- 2014年
- 大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%~159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统.
- 周江王伟平孟丹马灿古晓艳蒋杰
- 关键词:大数据海量数据存储分布式文件系统高可用性
- 大规模图数据可达性索引技术:现状与展望被引量:16
- 2015年
- 随着社交网络、生物信息网、本体等新兴领域的飞速发展,在现实应用中涌现出大量的图数据.可达性查询是有向图上一类最基本的查询.当图的规模非常小时,利用深度优先遍历(depth-first search,DFS)或可达性传递闭包可以很容易处理可达性查询.但是,随着图的规模越变越大,由于DFS方法的查询效率太低而可达性传递闭包方法占用的存储空间太大,这2种方法不再适用.因此,许多可达性索引方法相继被提出.这些方法已经被广泛应用于多个计算机科学领域,如软件工程、编程语言、分布式计算、社交网络分析、生物网络分析、XML和RDF数据库、路由规划等领域.此外,可达性索引还可用于加速其他图算法,如最短路径查询和子图模式匹配.首先介绍了可达性索引的应用背景.接着,依据支持的数据规模、数据类型以及查询类别,将现有可达性索引工作进行了分类,并对代表性工作进行分类比较;最后,讨论了现有的大规模图数据可达性索引方法存在的问题,并指出了未来的研究方向.
- 富丽贞孟小峰
- 关键词:可达性索引查询处理
- 固态硬盘混合存储数据库的数据分布优化算法被引量:5
- 2015年
- 基于闪存的固态硬盘(SSD)可以有效提升联机事务处理(OLTP)数据库的性能,但由于目前SSD价格仍然较高,一般多与磁盘组成混合存储。为此,提出数据分布的自适应优化算法以及具体的优化策略。该算法能够自动适应应用的特征,通过观测判断各个数据元素的性能提升效率,从而在SSD和磁盘之间自动形成理想的数据分布。基于实际数据库系统的实验结果表明,该算法可适应各种SSD空间配置,使基于混合存储的OLTP数据性能得到有效提升。
- 周世民柴云鹏王良王鑫
- 关键词:闪存固态硬盘数据库联机事务处理
- StepMatch:一种基于BSP计算模型的SPARQL基本图模式匹配算法
- 2013年
- 随着语义网的发展,越来越多的数据通过资源描述框架(resource description framework,RDF)格式发布出来.目前有很多研究使用MapReduce计算模型处理大规模RDF数据,将SPARQL查询拆分成多步迭代.对于更适合使用消息传递模型来解决的图计算问题,MapReduce并非是最佳的选择.StepMatch算法基于整体同步并行(bulk synchronous parallel,BSP)计算模型,能有效解决SPARQL的基本图模式匹配查询.StepMatch是一个面向顶点的算法,RDF图中每一个顶点都被视为一个计算单元,顶点可以执行计算并向其他顶点发送消息.对于一个给定的SPARQL查询,StepMatch算法的超步数量与SPARQL查询包含的子句数目相等.最后,实现了StepMatch算法,并在合成的LUBM(Lehigh University Benchmark)数据集和真实的DBpedia数据集上进行了性能实验.
- 吕雪栋冯志勇王鑫王鑫付宇新
- 关键词:资源描述框架SPARQL
- 基于嵌套正则表达式的RDF图数据属性路径查询及推理
- 2015年
- SPARQL 1.1引入的属性路径查询提供了大规模RDF图数据上进行路径查询的支持.现有的属性路径查询实现方案均基于多重索引,经过多次迭代查询实现,效率低下,且只能对显式的RDF三元组进行查询,不具备推理能力.嵌套正则表达式可以支持全部的RDFS推理,并在多项式时间复杂度内执行路径查询.因而,将属性路径查询转化为嵌套正则表达式的求值,可以提高查询效率,挖掘隐藏信息.实现了RDFS-Plus原型系统,包括属性路径查询的解析器和基于嵌套正则表达式的查询引擎,采用基于自动机的图算法,避免了求RDF图闭包.最后,提供了与ARQ和Sesame的对比实验.实验表明,提出的基于嵌套正则表达式的RDF图数据属性路径查询方法不仅可以支持推理,而且维持了多项式的计算复杂度.
- 凌骏王鑫冯志勇饶国政姜洋
- 关键词:RDF
- 差分隐私下一种精确直方图发布方法被引量:12
- 2016年
- 基于分组的差分隐私直方图发布得到了研究者的广泛关注,组均值造成的近似误差与噪音造成的拉普拉斯误差之间的均衡直接制约着直方图发布精度,针对现有基于分组的直方图发布方法难以有效兼顾近似误差与拉普拉斯误差的不足,提出了一种满足差分隐私的精确直方图发布方法DiffHR(differentially private histogram release);通过分析直方图桶计数序列的排序有助于提升发布精度,利用Markov链蒙特卡洛(Markov chain Monte Carlo,MCMC)方法中的Metropolis-Hastings技术与指数机制,提出了一种有效排序方法,通过不断置换2个随机选取的桶以逐渐逼近正确排序;基于抽样排序后的直方图,提出了一种基于懒散分组下界的自适应贪心聚类方法,该方法的时间复杂度为O(n),并且可有效均衡近似误差与拉普拉斯误差.DiffHR,GS,AHP方法在真实数据上的实验结果表明,其发布精度上优于同类算法.
- 张啸剑邵超孟小峰
- 行并行可重构单元阵列流水映射性能评估被引量:3
- 2017年
- 针对粗粒度单元阵列流水映射问题,设计了三种行流水结构阵列,并分析了其执行步骤,提出了一种基于行流水阵列通用的流水映射算法.该算法综合考虑混合多层迭代启动间距、块间流水通信成本、块配置成本等多个因素,一组测试基准程序实验结果表明了文中算法的合理性,与多目标优化映射算法相比,该算法消耗总时延平均节省了4.0%(可重构单元阵列RCA_(4×4))和4.3%(可重构单元阵列RCA_(8×8));与满射映射相比,该算法消耗总时延平均节省了52.1%(RCA_(4×4))和56.2%(RCA_(8×8)).
- 陈乃金冯志勇冯志勇江建慧王真
- 关键词:映射多约束流水段
- 面向内部威胁检测的用户跨域行为模式挖掘被引量:16
- 2016年
- 内部用户行为分析是系统安全领域中一个重要的研究问题.近期的工作主要集中在用户单域行为的单一模式分析技术,同时依赖于领域知识和用户背景,不适用于多检测域场景.文中提出一种新的用户跨域行为模式分析方法.该方法能够分析用户行为的多元模式.此外,该方法是完全数据驱动的方法,不需要依赖相关领域知识和用户背景属性.最后作者基于文中的用户行为模式分析方法设计了一种面向内部攻击的检测方法.在实验中,作者使用文中方法分析了真实场景中的5种用户审计日志,实验结果验证了文中分析方法在多检测域场景中分析用户行为多元模式的有效性,同时文中检测方法优于两种已有方法:单域检测方法和基于单一行为模式的检测方法.
- 文雨王伟平孟丹
- 关键词:非负矩阵分解高斯混合模型
- MMDVis:一个基于微博用户的多博文传播分析及可视化系统
- 2013年
- 微博的迅速普及使得越来越多的用户开始通过微博获取及分享信息,博文在微博上基于用户间关注关系及用户的转发动作得以扩散传播.通过对博文传播过程数据进行挖掘分析,可以了解用户的转发行为规律,并发现传播过程中的关键用户.提出了用户消息传播网络、爆发节点、桥节点和普通节点的概念,并设计实现了一个挖掘用户消息传播网络的系统.该系统还可以对消息传播网络进行可视化展现,并采用了相关的优化策略提升了可视化展现的效果.介绍了系统的体系结构、相关概念、挖掘分析算法及可视化交互界面.
- 郝竞超王朝坤司德谭汪浩王巍王建民
- 关键词:信息传播可视化
- 基于卷积神经网络和用户信息的微博话题追踪模型被引量:6
- 2017年
- 为了解决微博文本特征抽取及特征稀疏问题,提出基于卷积神经网络的微博话题追踪模型(CNN-TTM).基于微博用户信息,又提出融合微博用户信息及卷积神经网络的微博话题追踪模型(CNN-User TTM),利用微博用户信息提高话题追踪准确率.实验表明,在新浪微博数据集上,CNN-TTM和CNN-User TTM分别获得较高的微博话题追踪准确率.
- 付鹏林政袁凤程林海伦王伟平孟丹
- 关键词:卷积神经网络