您的位置: 专家智库
>
资助详情 >
国家自然科学基金(31301092)
国家自然科学基金(31301092) 作品数:12 被引量:33 H指数:4 相关作者: 林勇 刘湘琼 连保峰 林勇 谢鹭 更多>> 相关机构: 上海理工大学 上海交通大学附属第一人民医院 中南大学 更多>> 发文基金: 国家自然科学基金 上海市教育委员会重点学科基金 更多>> 相关领域: 医药卫生 自动化与计算机技术 电子电信 更多>>
基于Tree-Based LASSO的微生物组子结构回归分析 2020年 人体微生物成分和功能变化对其表型或疾病有着重要的影响,在研究微生物对人体影响时不能仅仅考虑单个微生物动态,还应考虑分类水平下群落的整体影响。为此,提出一种基于tree-based LASSO的微生物组子结构回归分析方法,以分析微生物群落与人体表型之间的关联影响。首先,结合系统发育树结构,构建一种新的惩罚函数逐节点分析树结构;其次,对148个样本进行复杂和稀疏子结构回归对比实验及系数评估,对位于不同子结构上菌种的回归系数进行结果对比分析,并与传统LASSO方法进行比较。结果表明,该方法能够突出微生物群落树结构的影响。在测试节点上的回归系数分别为0.122和0.127,优于传统LASSO方法的回归系数0.106和0.118,从而验证该方法识别菌落结构的优势,因此能更好地分析微生物群落与人体表型之间的关联。 许小敏 林勇关键词:系统发育树 拷贝数变异检测算法优化研究 2019年 拷贝数变异与多种复杂疾病密切相关,具有重要的研究意义。本文利用基于测序数据的拷贝数变异检测过程中丢弃的不匹配读数据,采用裂读法和单端匹配法对已有检测算法的结果进行过滤优化。模拟和实验数据检测结果表明,本文方法优化后能得到了更高的检测性能。 林勇 NGUVE GILEAD NGUVE基于多粒度级联森林的骨质疏松性骨折预测研究 被引量:7 2019年 目的骨质疏松性骨折(osteoporotic fracture,OF)的预测对于骨折防范具有重要的临床指导意义。针对传统logistic回归预测模型存在的精度不高和未考虑遗传因子问题,本文引入多粒度级联森林(multi-grained cascade forest,gcForest)并结合遗传因子来预测OF。方法首先基于 t 分布邻域嵌入( t -distributed stochastic neighbor embedding, t -SNE)算法对OF关联基因位点进行非线性降维,降维后的基因位点与临床因素构成特征组。然后构建gcForest模型对OF进行预测。最后通过10次十折分层交叉验证与logistic、梯度提升决策树、随机森林进行对比。结果基于gcForest的模型分类精度为0.892 7,AUC值为0.92±0.05,泛化性能最优。结论在考虑遗传因素的条件下,gcForest分类效果优于其他模型,验证了本文方法的高效性和实用性。 徐辉煌 张海宇 林勇关键词:骨质疏松性骨折 基于集成学习的肿瘤药物敏感性预测研究 被引量:2 2021年 肿瘤药物敏感性预测对个性化精准用药具有重要意义。本文基于GDSC数据库通过Boosting集成学习构建了面向RNA-seq基因表达和癌症药物敏感性数据的预测模型。先将183种药物集分别做归一化处理和基因特征降维,接着用AdaBoost集成SVM的方法建模,并采用十折交叉验证。实验结果表明构建的预测模型具有较高的预测精度,13种药物的AUC大于0.95,108种大于0.9,174种大于0.8。对比验证实验中,AdaBoost+SVM相比单学习器模型在整体药物集的综合评价指标中约提高4%,与其他集成模型相比提高2%。同时本文探讨了药物特异性,通过特征选择和富集分析对药物作用通路进行验证,从生物学角度提供了模型可解释性,证明其应用于临床用药指导的价值。 黄鹏杰 林勇 张梦欢 吕琳 刘振浩 裴潇倜 许林锋 谢鹭关键词:肿瘤 ADABOOST 基于U-Net的T细胞斑点检测方法研究 2021年 针对传统图像分割方法抗噪性弱、容易漏检的问题,提出基于U-Net模型的T细胞斑点分割算法。通过中值滤波器平滑消除噪声,灰度化处理降低背景干扰,采用Adam算法优化损失函数,能有效提高分割准确率。实验结果表明,与基于区域生长的传统分割方法对比,U-Net方法在少量斑点和较多斑点两种情况下F1分别提升9%和6%,验证了其有效性。 裴潇倜 吕琳 黄鹏杰 陈兆学 林勇关键词:图像分割 引入遗传因子的骨密度机器学习回归模型研究 2022年 目的构建遗传因素及临床风险因素相结合的骨密度机器学习回归模型,识别影响个体对骨质疏松易感性的最优特征组合。方法以最大互信息系数与序列浮动前向选择作为两阶段特征选择方法选择最优特征子集,基于随机森林建立骨密度回归模型。结果在2263例白种人样本数据集进行十折交叉验证实验,结果表明当包含51个SNP位点,6个临床特征时,两阶段特征选择方法结合随机森林模型的均方根误差最低为0.093598 g/cm^(3),相较仅以临床危险因素作为特征时RMSE降低了5.36%;与选用其他特征选择方法及回归模型的比较实验证实了本文提出模型的良好稳定性。结论骨质疏松症致病因素分析方法能够发现隐藏的特征间相互作用,识别最优特征组合,从而更好地预测和诊断复杂疾病。 陈鹏丽 孔祥勇 林勇关键词:骨质疏松症 骨密度 基于平稳小波变换的胎儿心电提取方法 被引量:3 2017年 胎儿心电信号的提取对孕期胎儿健康状况的检测具有重要意义。本文提出一种基于平稳小波变换的单/多通道胎儿心电提取方法。多通道环境下输入信号包括腹部混合信号和母体心电信号,单通道环境下母体心电信号采用对腹部混合信号进行窗口平均法获得,然后对信号进行平稳小波变换与阈值去噪,继而提取胎儿心电信号。Physio Net数据测试实验表明,该方法在单/多通道的环境下均能成功提取到清晰的胎儿心电信号,并且能有效地消除噪声。 祖秋雨 林勇关键词:平稳小波变换 多通道 单通道 阈值去噪 肝癌基因调控网络研究进展 被引量:6 2016年 肝癌(Hepatocellular carcinoma,HCC)是我国常见的恶性肿瘤之一。肝癌基因调控网络(HCC regulatory network,HCC GRN)是研究肝癌分子机制的重要途径之一,其节点包括肝癌相关的分子,如mi RNA、TF等,网络的边由节点间相互作用关系构成。基于不同类型的数据构建的肝癌基因调控网络其类型及特征各有不同。综合近年来肝癌基因调控网络研究发现,由TF与mi RNA构建的肝癌转录调控网络更能揭露肝癌关键基因,反映关键基因在调控网络中的扰动情况。整合基因变异信息与调控网络成为研究肝癌基因调控网络的趋势,但相应的研究几乎是空白的。本文从HCC GRN的数据来源、分类及特征,及各类型调控网络的近年研究情况等方面进行综述,并结合相关研究工作对肝癌基因调控网络研究现状进行分析与讨论,对前景进行展望,为这一领域研究工作提供参考。 刘湘琼 连保峰 林勇关键词:肝癌 基因调控网络 转录调控网络 基因变异 基于隐马尔可夫模型的拷贝数变异检测算法研究 被引量:2 2017年 针对目前拷贝数变异检测存在的参数优化、额外信息利用不充分等问题,提出一种基于隐马尔可夫模型的拷贝数变异检测算法。首先对读数据与参考序列比对并存储匹配失效的数据,实现窗口读数据的计数和平滑校正;然后引入隐马尔可夫模型对读计数的异常信号进行检测,得出候选的拷贝数检测结果;最后采用基于匹配失效数据的裂读比对实现候选结果的过滤,从而提高检测性能。模拟和实验数据的拷贝数变异检测结果表明该算法具有较高的检测精度和覆盖度,优于现有常用的检测算法。 林勇 刘湘琼关键词:拷贝数变异 隐马尔可夫模型 基于多组学数据的肿瘤药物敏感性预测 被引量:3 2022年 肿瘤药物敏感性预测在指导患者临床用药方面具有重要意义。本文基于癌症药物敏感性基因组学数据库(genomics of drug sensitivity in cancer, GDSC) 198种药物的细胞系敏感性IC50数据,通过Stacking集成学习构建了包含基因表达、基因突变、拷贝数变异数据的多组学癌症药物敏感性预测模型。采用多种特征选择方法对基因特征进行降维,使用Stacking方法集成6种初级学习器和1种次级学习器进行建模,采用5折交叉进行模型验证。预测结果中AUC大于0.9的占比为36.4%,在0.8–0.9之间的占比为49.0%,最低AUC为0.682。基于Stacking构建的多组学预测模型较已有单组学和多组学模型的准确性和稳定性具有优势。多组学整合预测药物敏感性优于单一组学。特征基因功能注释和富集分析解析了肿瘤对sorafenib潜在的耐药机制,从生物学角度提供了模型可解释性及其应用于临床用药指导的价值。 杨晨雨 刘振浩 代培斌 张钰 黄鹏杰 林勇 谢鹭关键词:STACKING SORAFENIB