国家自然科学基金(60970055) 作品数:14 被引量:22 H指数:2 相关作者: 吕强 黄旭 吴进珍 钱培德 杨凌云 更多>> 相关机构: 苏州大学 江苏省计算机信息处理技术重点实验室 苏州科技学院 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 生物学 理学 轻工技术与工程 更多>>
1种蛋白质Loop片段结构的概率生成模型 2010年 在计算生物学中,根据蛋白质的氨基酸序列预测蛋白质的结构是尚未解决的重要问题之一,而其中的1个难点是预测蛋白质中Loop片段的结构。本文用1阶马尔可夫模型为基础,通过对其训练,可根据氨基酸串和2级结构信息为蛋白质Loop片段概率建模和采样。其中用Ramachandran图示法的二面角对描述蛋白质结构,模型的训练和推理通过工具包Mocapy来完成。并使用KL交叉熵和角度差异值作为实验检验标准来完成Loop分布情况的测试实验,同时在从头预测Loop结构实验中预测CASP8中8个自由建模的蛋白质结构。与最流行的方法相比,本文提出的模型因为改进了Loop段的预测精度,从而可使得到的二面角对更加接近真实Loop结构中分布,同时在从头预测中提高整个蛋白质结构的预测精度。并且由于本文的模型具有概率推理特性,故在理论上也更具有无偏见性。 杨鹏 吕强 杨凌云 吴进珍 温炜一种蛋白质点突变计算机预测的并行模型 被引量:1 2012年 认识和预测蛋白质天然构象的波动对蛋白质-蛋白质对接和设计等应用是非常重要的.但是许多骨架柔性的方法会导致骨架较大幅度的波动.Backrub模型能够对骨架进行微小的扰动,符合高分辨率晶体结构中观察到的构象的微妙变化.本文提出了一种基于Backrub的并行扰动骨架和侧链的模型,可以对天然构象的等价状态进行模拟.这种并行扰动方式更加接近于真实情况下蛋白质构象的运动方式,更好地模拟了实验数据.通过预测10个点突变实例,相比串行随机扰动模型产生的构象,并行模型不仅从时间上提高了产生构象的速度,更提高了侧链的预测精度. 栾忠兰 吕强 杨凌云 徐超关键词:侧链 基于能量的蛋白质结构聚类距离加权策略 被引量:1 2010年 在对蛋白质预测结构进行聚类的过程中,常用的均方根偏差、TM-score、GDT-TS等相似性度量方法仅反映了结构之间的距离关系而未考虑结构之间的能量关系。针对上述问题,对候选结构进行距离度量,计算两两之间的能量差异,并以此设置权重,对相似性矩阵进行修改。通过在13个数据集上的实验表明,采用能量差异对相似性矩阵进行加权后的聚类结果优于加权之前。 黄旭 吕强 吴进珍 钱培德关键词:蛋白质结构预测 聚类算法 一种基于HMM的蛋白质侧链旋转异构体构造方法 被引量:1 2011年 蛋白质侧链预测是蛋白质结构预测以及蛋白质设计中非常重要的子问题,而旋转异构体库的构造是进行侧链预测的基础,为预测提供搜索空间.现有的旋转异构体库考虑的是单个氨基酸的统计信息,没有考虑与之相邻的氨基酸对其构象产生的影响.本文提出一种基于隐马尔科夫模型的旋转异构体库构造方法,将相邻氨基酸的构象信息也考虑进来,产生与序列相关的旋转异构体库.并采用蛋白质预测程序Rosetta对CASP8中的12个自由建模蛋白质在本文提出的旋转异构体库基础上进行侧链预测,与基于经典的旋转异构体库的侧链预测结果相比,在预测精度上有了一定的提高. 温炜 吕强 杨鹏 杨凌云 吴进珍 黄旭关键词:隐马尔科夫模型 从头预测蛋白质骨架的一种并行蚁群方法及其在CASP8/9中的应用 被引量:7 2012年 从低同源关系的氨基酸序列预测蛋白质的三维结构被称为从头预测,它是计算生物学领域中的挑战之一.蛋白质骨架预测是从头预测的必要先导步骤.本文应用一种基于共享信息素的并行蚁群优化算法,在现有能量函数指导下,通过不同能量项之间的定性互补,构建具有最低能量的蛋白质骨架结构,并通过聚类选择构象候选集合中具有最低自由能的构象.在CASP8/9所公布的从头建模目标上应用了该方法,CASP8的13个从头建模目标中,模型1中有2个目标的预测结果超过CASP8中最好的结果,7个位列前10名;CASP9的29个从头建模目标中,候选集中的最佳结果中有20个进入Server组的前10名,模型1中有11个进入前10名.本文的结果说明融合多个不同的能量函数指导并行搜索,可以更好地模拟天然蛋白质的折叠行为.同时,在本算法载体上实现了不同种类搜索策略的融合并行,对于用非确定性算法解决类似的优化问题来说也是一种新颖的方法. 吴宏杰 吕强 吴进珍 黄旭 罗小虎 钱培德关键词:蛋白质折叠 启发式算法 蛋白质结构预测聚类算法的评估 2011年 在7个数据集上对3种不同聚类算法与3种不同相似性度量标准的多种组合进行实验,以评估这些因素对聚类性能的影响。为便于确定聚类参数,提出一种针对蛋白质结构预测的聚类中心选择算法。实验结果表明,在3种相似性度量标准中,RMSD对于聚类的效果最好,而在3种聚类算法中,SPICKER性能最优,其次是AP聚类算法。 黄旭 吕强 钱培德关键词:蛋白质结构预测 聚类算法 一个识别蛋白质折叠模式的SVM分类器 被引量:2 2010年 蛋白质折叠模式识别是一种分析蛋白质结构的重要方法。以序列相似性较低的蛋白质为训练集,提取蛋白质序列信息频数及疏水性等信息作为折叠类型特征,从SCOP数据库中已分类蛋白质构建1 393种折叠模式的数据集,采用SVM预测蛋白质1 393种折叠模式。封闭测试准确率达99.612 2%,基于SCOP的开放测试准确率达79.632 9%。基于另一个权威测试集的开放测试折叠准确率达64.705 9%,SCOP类准确率达76.470 6%,可以有效地对蛋白质折叠模式进行预测,从而为蛋白质从头预测提供参考。 郭海娟 吕强 吴宏杰 吴进珍 杨鹏 黄旭关键词:SVM A Fast Calculation of Metric Scores for Learning Bayesian Network 2012年 Frequent counting is a very so often required operation in machine learning algorithms. A typical machine learning task, learning the structure of Bayesian network (BN) based on metric scoring, is introduced as an example that heavily relies on frequent counting. A fast calculation method for frequent counting enhanced with two cache layers is then presented for learning BN. The main contribution of our approach is to eliminate comparison operations for frequent counting by introducing a multi-radix number system calculation. Both mathematical analysis and empirical comparison between our method and state-of-the-art solution are conducted. The results show that our method is dominantly superior to state-of-the-art solution in solving the problem of learning BN. Qiang Lv Xiao-Yan Xia Pei-De Qian一种用于蛋白质结构聚类的聚类中心选择算法 被引量:9 2011年 提出一种对蛋白质结构聚类中心进行选择的算法.聚类是蛋白质结构预测过程中必不可少的一个后处理步骤,而目前在蛋白质结构预测中常用的属性阈值(Quality threshold,QT)聚类算法依赖于由经验得出的聚类半径;其他聚类算法,如近邻传播(Affinity propagation,AP)聚类算法也存在影响聚类分布的参数.为克服对主观经验参数的依赖,本文提出一种聚类中心选择算法(Exemplar selection algorithm,ESA),用于对不同参数下的聚类结果进行分析,从而选择最佳聚类中心,进而确定聚类半径等经验参数.该算法在真实蛋白质结构数据集上进行了实验,在未知经验参数情况下选择出最佳聚类中心,同时也为不同聚类算法寻找适合相应数据集的客观聚类参数提供了支持. 黄旭 吕强 钱培德关键词:蛋白质结构 聚类 一种基于SVR的分辨近天然G蛋白耦联受体—配体构象的方法 被引量:1 2011年 蛋白质小分子对接的难点之一是从生成的大量候选结构中挑选出近天然构象。本文使用了一种基于SVR的方法来挑选RosettaLigand生成的GPCR—配体decoy构象中的近天然构象。首先,对已有数据训练得到一个SVR模型,预测decoy构象的LRMSD,然后依此挑选近天然构象。最终,比较了本文方法和RosettaLigand方法挑选出的近天然构象decoy的质量,结果优于RosettaLigand方法,结果表明了本文方法能够有效地挑选出近天然构象。 杨凌云 吕强关键词:GPCR SVR 分子对接