北京市教育委员会科技发展计划面上项目(KM200910025006) 作品数:2 被引量:7 H指数:1 相关作者: 汪伟 刘红 郑卫英 华琳 更多>> 相关机构: 首都医科大学 更多>> 发文基金: 北京市教育委员会科技发展计划面上项目 更多>> 相关领域: 医药卫生 生物学 更多>>
基于独立成分分析和随机森林判别法的Microarray分析及在分子生物学中的应用 被引量:1 2009年 提出基于独立成分分析(ICA)和随机森林判别的Microarray分析方法。该方法先采用独立成分分析获取高阶统计信息,提取Microarray数据特征,达到降维的目的。再应用提取的特征,采用随机森林判别法对样本进行分类。数值分析结果表明,提取5个特征就可以使袋外样本OOB(out of bag)的分类错误率达到7.89%。该方法有效地降低了特征空间维数,具有较高的正确识别率,提高了算法的鲁棒性和灵活性。 汪伟 华琳 郑卫英 刘红关键词:MICROARRAY 基于遗传算法与支持向量机的基因微阵列分析 被引量:6 2010年 背景:微阵列数据的特点是样本含量小,而变量数(基因)多达上万个。此时,传统的统计方法往往因为高维而失效了。遗传算法和支持向量机是近年来发展迅速的机器学习算法,具有很好的分类效果与降维优势。目的:提出将遗传算法与支持向量机结合起来对样本进行分类,并与直接采用支持向量机、筛选差异表达基因后采用支持向量机的结果进行比较。方法:采用Bioconductor提供的数据集golub,它是白血病微阵列芯片实验所得的基因表达数据集,对全部基因采用支持向量机进行分类。采用SAM软件对芯片数据的显著性分析确定不同的差异表达基因并估计错误发现率FDR,以筛选出的76个差异表达基因作为特征基因子集,再采用支持向量机进行分类。将筛选出的76个差异表达基因作为初始的特征基因集合,采用遗传算法-支持向量机再次进行特征基因选择,提高分类准确度,并与全部基因直接采用支持向量机、筛选差异表达基因后采用支持向量机的结果进行比较。同时也对特征基因在代谢通路上的分布和功能作了一定的研究。结果与结论:通过遗传算法降维可以提高支持向量机的分类准确率,特别是剔除了数据中的大量无关基因和噪声,使得经过特征选择后分类准确率提高。结果显示遗传算法与支持向量机结合方法对分类更加有效。此外,通路分析结果显示特征基因的主要功能体现在信号传导和氨基酸代谢上。 汪伟 刘红关键词:遗传算法 支持向量机 微阵列 通路