国家重点基础研究发展计划(2013CB32930X)
- 作品数:4 被引量:24H指数:2
- 相关作者:宫秀军张小驰赖向阳于华更多>>
- 相关机构:天津大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于随机游走的迭代加权子图查询算法被引量:3
- 2015年
- 作为经典的NP完全问题之一,子图查询算法近年来在社交网络、生物分子网络等复杂系统分析中引起研究人员的极大关注.结点相似性计算和目标图约简是子图查询算法中提高查询准确率和降低计算复杂性的2种常用手段.针对复杂生物分子网络之间的子图查询问题,提出了一种基于半Markov随机游走的迭代加权子图查询算法.在结点相似性计算中,设计了基于半Markov游走模型的集成结点本身相似性、结构相似性及邻居结点相似性的综合度量方法;同时,在目标图约简过程中,通过迭代递减目标图中低相似性结点,以降低目标图的规模.对多个真实蛋白质网络查询的实验结果表明,算法在精度和时间复杂性方面都有明显提高.
- 张小驰于华宫秀军
- 关键词:蛋白质相互作用
- 一种MapReduce架构下基于遗传算法的K-Medoids聚类被引量:18
- 2017年
- 由互联网时代快速发展而产生的海量数据给传统聚类方法带来了巨大挑战,如何改进聚类算法从而获取有效信息成为当前的研究热点。K-Medoids是一种常见的基于划分的聚类算法,其优点是可以有效处理孤立、噪声点,但面临着初始中心敏感、容易陷入局部最优值、处理大数据时的CPU和内存瓶颈等问题。为解决上述问题,提出了一种MapReduce架构下基于遗传算法的K-Medoids聚类。利用遗传算法的种群进化特点改进K-Medoids算法的初始中心敏感的问题,在此基础上,利用MapReduce并行遗传K-Medoids算法提高算法效率。通过带标签的数据集进行实验的结果表明,运行在Hadoop集群上的基于MapReduce和遗传算法的K-Medoids算法能有效提高聚类的质量和效率。
- 赖向阳宫秀军韩来明
- 关键词:海量数据MAPREDUCE遗传算法
- 人类肾脏组织特异性蛋白网络构建及分析被引量:1
- 2013年
- 生命体内组织特异性基因往往在对应的组织中表现出高的共表达性,在组织特异性基因的调控中,非组织特异性的转录因子往往起很大作用,并且这些转录因子往往与特定的转录因子一起影响组织的特异性,因此研究组织特异性基因编码蛋白相互作用网络必须考虑非组织特异性蛋白的影响。本文提出了一种利用最短路径算法来计算组织特异性基因编码蛋白的关联蛋白,从而构建最大连接强度的组织特异性蛋白相互作用网络,并对其拓扑结构进行基因本体(GO)、KEGG Pathway和疾病本体(DO)的富集度分析。通过对肾脏组织中的1 486个蛋白质及其相应的4 011条蛋白质相互作用分析,发现绝大部分结构的功能与肾脏组织的功相吻合,同时也发现了几种比较有趣的表面上与肾脏组织无关的功能及疾病。
- 张小驰宫秀军
- 关键词:组织特异性蛋白质相互作用网络肾脏
- 基于Hadoop架构的数据驱动的SVM并行增量学习算法被引量:2
- 2016年
- 针对传统支持向量机(SVM)算法难以处理大规模训练数据的困境,提出一种基于Hadoop的数据驱动的并行增量Adaboost-SVM算法(PIASVM)。利用集成学习策略,局部分类器处理一个分区的数据,融合其分类结果得到组合分类器;增量学习中用权值刻画样本的空间分布特性,对样本进行迭代加权,利用遗忘因子实现新增样本的选择及历史样本的淘汰;采用基于HBase的控制器组件用以调度迭代过程,持久化中间结果并减小MapReduce原有框架迭代过程中的带宽压力。多组实验结果表明,所提算法具有优良的加速比、扩展率和数据伸缩度,在保证分类精度的基础上提高了SVM算法对大规模数据的处理能力。
- 邳文君宫秀军
- 关键词:HADOOPHBASE遗忘因子