目的采用生物信息学方法探讨非小细胞肺癌(NSCLC)差异表达基因筛选、生物学功能富集及其与患者预后关系。方法采用生物信息数据挖掘基因表达数据库(GEO),肿瘤生存数据库Kaplan-Meier Plotter和蛋白相互作用(PPI)数据库String中NSCLC差异表达基因。首先在GEO数据库中筛选NSCLC患者癌组织与正常肺组织差异表达基因芯片数据集,下载数据后选取三个数据集中重叠的差异表达基因为研究对象。对筛选出的差异表达基因进行基因本体论(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEEG)生物功能及信号通路富集分析,同时应用蛋白-蛋白相互作用数据库(STRING)预测相关基因编码蛋白相互作用网络(PPI)。并对关键基因高低表达与患者预后关系进行分析。结果差异表达数据集GSE19804,GSE101929和GSE33532为研数据。选取了在三个数据集中均存在差异表达的65个基因为进一步分析对象。层次聚类分析显示65个基因在肿瘤组织与正常肺组织呈现明显的聚类。65个异常表达基因生物学过程主要富集于GTP酶活性调节,单细胞-细胞粘附,凋亡过程的负调节,细胞增殖的正调控,正调控血管生成,蛋白质自磷酸化等;细胞学组分为定位于膜的组成部分,质膜,质膜组成,细胞表面,细胞-细胞连接和肌动蛋白细胞骨架等;而分子功能富集于蛋白质结合,受体活性,ras鸟嘌呤核苷酸交换因子ac等。KEEG信号通路分析显示,上述差异表达基因主要富集于ll粘附分子(cams)。PPI主要为血管生成和细胞粘附等功能通路。CDH5,TEK,CALCRL,RXFP1和TNNC1为信号通路关键基因,上述基因高表达患者总生存时间显著低于低表达患者(P<0.05)。结论NSCLC患者存在差异表达基因普,差异表达基因大多参与了肺癌细胞发生、发展及迁移等生物学相关功能。CDH5,TEK,CALCRL,RXFP1和TNNC1为NSCLC信号通路关键基因,并与患者的