王妮 作品数:17 被引量:61 H指数:5 供职机构: 首都医科大学生物医学工程学院 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 医药卫生 自动化与计算机技术 更多>>
基于社区居民健康大数据预测高血压的患病风险 被引量:3 2020年 目的利用居民健康大数据预测高血压的患病风险,并分析高血压相关的重要因素。方法基于社区公共卫生系统数据集,利用机器学习中的Logistic回归、随机森林和支持向量机算法建立高血压患病风险预测模型,并比较三者的预测性能,另通过随机森林中的基尼系数下降法分析高血压患病的影响因素。结果支持向量机模型的准确率(87.00%)、精确率(85.00%)、召回率(88.00%)、F1值(0.88)和ROC曲线下面积(0.932)优于随机森林模型(85.00%、84.00%、87.00%、0.87和0.929)和Logistic回归模型(83.00%、85.00%、81.00%、0.81和0.920)。Gini系数分析显示,冠心病、年龄、糖尿病和教育水平在预测高血压患病风险中具有重要作用;现教育水平、职业类型、其他慢病、婚姻情况、体重指数、父亲患有高血压、母亲患有高血压、饮酒、饮食偏咸、吸烟、锻炼在预测高血压患病风险中具有一般作用;性别、饮食偏素、饮食偏甜、饮食偏油、饮食偏辣在预测高血压患病风险中作用不大。结论支持向量机预测模型的预测高血压患病风险最优。文化程度低、合并患有冠心病、糖尿病和其他慢病、有家族史和老年人为高血压易患人群,针对此类人群应重点关注体重指数、饮酒和饮食习惯(偏咸)方面。 周阳 王妮 黄艳群 陈晨 李盛俊 陈卉关键词:高血压 社区居民健康档案 基于Access的大规模住院病案首页数据挖掘 被引量:8 2017年 目的探索基于Access数据库进行大规模住院病案首页数据挖掘的方法。方法收集某市2002~2013年的住院病案首页,经过数据清理和疾病编码转换,利用Access数据库的窗体和VBA技术编程,按年度对住院病案首页数据进行汇总分析。以慢性阻塞性肺疾病(简称慢阻肺)为例汇总分析相关住院指标。结果对近600万条住院病案首页记录进行汇总分析总耗时267 s。2002~2013年,该市因慢阻肺住院的患者逐年增加,平均住院天数下降,平均住院费用上升,30 d再住院率尚无明显变化趋势。60岁以上慢阻肺患者的住院天数、费用均高于其他年龄段患者。结论时间连续的住院病案首页数据提供了对单病种患者住院指标进行时间趋势分析的可能性,其结果可为卫生和医院主管部门在医院管理决策、流行病学监测、卫生经济学等方面提供重要信息。 王妮 陈婕卿 刘文艳 陈卉关键词:住院病案首页 慢性阻塞性肺疾病 医院管理 数据挖掘 基于时间序列相似性的患者结局预测模型 被引量:3 2022年 目的评估患者时间序列相似性,验证融合时间序列相似性的K近邻(K-nearest neighbor,KNN)模型是否可以有效提高患者结局预测的效果。方法整合Medical Information Mart for Intensive Care(MIMIC-Ⅲ)数据库中急性心肌梗死患者的人口学信息、药物使用情况、疾病诊断、影像学报告、实验室指标以及手术操作数据,使用Jaccard系数、欧氏距离、编辑距离以及动态时间规整计算患者相似性。分别以入院基线数据和住院全程数据计算患者相似性,进而对患者死亡、长时住院和长时重症监护(intensive care unit,ICU)进行预测。使用接受者操作特征曲线下面积(area under curve,AUC)评估预测效果,与基于静态数据的支持向量机(support vector machine,SVM)模型、基于时间序列的长短时记忆(long short-term memory,LSTM)模型进行对比。结果输入数据为住院全程数据时,KNN模型在死亡和长时住院预测中AUC值为0.877和0.946,高于SVM模型(0.825,0.930)和LSTM模型(0.853,0.928);输入数据为入院基线数据时,KNN模型在三个结局预测中AUC值为0.680、0.738、0.728,与SVM模型(0.719,0.715,0.708)相比各有高低。结论时间序列患者相似性与机器学习方法相结合可以有效提高信息利用率和模型的预测效果。 王牧雨 王妮 周阳 陈卉关键词:时间序列 K近邻 重症监护室 基于Skip-gram词嵌入算法的结构化患者特征表示方法研究 被引量:6 2019年 目的基于表示学习中的Skip-gram词嵌入算法,寻找能够克服电子病历中结构化特征的高维性并在语义层次上表示特征的方法。方法本文的数据来源于北京市某三甲医院的电子病历系统,从中提取患者的结构化特征,包括疾病、药物和实验室指标,其中实验室指标通过正常值范围离散化;利用Skip-gram算法,将电子病历中离散型患者特征(疾病和药物)和离散后的连续型患者特征(实验室指标)嵌入到同一个低维实数向量空间中。通过t-SNE降维可视化方法显示低维实数空间中特征向量的关系,并与特征向量间的余弦距离计算结果相互印证,从而评价特征表示的有效性和揭示特征向量间的潜在联系。结果患者特征的低维实数向量既降低了患者特征的维度,又很好地表征了特征间的潜在联系,临床含义相关的特征表示成的低维实数向量也很相近。结论基于Skip-gram算法将患者结构化特征表示成低维实数向量取得了较好的效果,为解决EMR数据表示的高维性以及结构化特征间潜在关系分析提供一种思路。 黄艳群 王妮 刘红蕾 刘红蕾 巍岚 费晓璐关键词:电子病历 自然语言处理 基于住院病案首页的慢阻肺患者住院人数影响因素分析 2018年 目的探讨慢性阻塞性肺疾病(慢阻肺)住院人数的时间变化趋势及其与空气质量的关系。方法收集大连市2002年-2015年所有二级及以上医院的住院病案首页数据,分析不同性别、年龄、合并症程度的慢阻肺患者住院人数时间趋势,以及住院人数与当地空气质量的关系。结果不同性别、年龄、合并症程度的慢阻肺患者住院人数均呈增长趋势,男性患者、60岁及以上患者、无合并症患者住院人数的增长明显高于相应其他人群;慢阻肺住院人数随季节更替有明显变化,春冬两季住院人数高于夏秋两季;随着空气质量的变差,2002年-2007年、2008年-2012年、2013年-2015年间慢阻肺住院人数均有显著上升趋势,P值分别为<0.001、0.040和<0.001。结论应提高对男性及老年人群的慢阻肺防治力度,并加强对慢阻肺合并症的治疗。春冬两季是慢阻肺的高发季,应重点监测预防,保护易感人群。积极改善空气质量控制污染,减少慢阻肺的住院人数。 王妮 刘红蕾 陈卉关键词:住院病案首页 慢性阻塞性肺疾病 空气质量 基于半监督学习的患者相似性度量研究 被引量:4 2020年 目的对数据类型多样的电子病历数据开展基于半监督学习的患者相似性度量研究,评估其可行性和有效性,并为后续个性化研究提供相似患者队列。方法对来自真实世界的电子病历数据,首先特异性计算特征相似性(年龄、性别、疾病、实验室检查),结合专家标注的部分监督信息构成标签集,在标签集中有监督地学习出最优距离度量。然后计算标签集与无标签集数据间的马氏距离,对无标签集中的每个样本,找出与其距离最近的标签集样本,并将其相似性分值作为该无标签样本的患者相似性预测值。最后将学习出的患者相似性作为聚类时评估患者亲疏程度的指标,并与基于传统欧氏距离和余弦距离的聚类结果进行比较。结果较欧氏距离和余弦距离,基于半监督学习出的患者相似性的聚类结果中,患者相似程度更高,聚类效果更好。结论对电子病历数据开展基于半监督学习的患者相似性度量研究是有效的。 王妮 黄艳群 刘红蕾 刘红蕾 魏岚 费晓璐 魏岚关键词:半监督学习 聚类分析 电子病历 基于实验室指标的新型冠状病毒肺炎鉴别诊断模型 2022年 目的基于实验室指标数据建立新型冠状病毒肺炎与流感病毒性肺炎的鉴别诊断模型,并评价模型的性能,为两种疾病的鉴别诊断提供依据。方法收集2020年1月至6月住院的175名新型冠状病毒肺炎患者和2019年同期住院的157名流感病毒性肺炎患者入院后的首次实验室数据,分别利用机器学习中的决策树及决策树的集成算法随机森林和XGBoost(eXtreme gradient boosting)建立鉴别诊断模型,通过准确率、F_(1)分数和接受者操作特征(receiver operating characteristic,ROC)曲线下面积评价和比较三种模型的预测效果。结果决策树、随机森林和XGBoost模型的准确率分别为0.831、0.892和0.898,F_(1)分数分别为0.836、0.894和0.902,ROC曲线下的面积分别为0.862、0.958和0.963。随机森林和XGBoost模型的诊断性能明显优于决策树模型。结论利用实验室指标能够建立高性能的新型冠状病毒肺炎鉴别诊断机器学习模型,这些模型有望帮助医生进行新型冠状病毒肺炎与流感病毒性肺炎的鉴别诊断。 朱碧云 王妮 陈卉 应晓飞 康娜 张淳基于美国全国住院病人样本的心血管疾病研究进展 2018年 美国全国住院病人样本数据库是一个开放的住院患者数据库,我们检索和阅读了2000~2017年利用该数据库进行心肌梗死、心肌病、心力衰竭和先天性心脏病等心血管疾病的流行病学趋势及预后研究的文献,分别从对疾病的发病率、死亡率、住院率等指标进行综述,以望对国内利用类似大数据开展心血管疾病相关研究提供思路。 张慧 黄艳群 王妮 刘红蕾 陈卉关键词:心血管疾病 影响因素 基于居民健康大数据的肥胖与常见慢病关联规则分析 被引量:7 2020年 目的探讨肥胖程度与常见慢性病之间的关联关系,为常见慢病的预防和管理提供大数据支撑。方法基于社区公共卫生系统数据集,通过使用Apriori关联规则算法挖掘高血压、冠心病、糖尿病这3种常见慢病与肥胖程度(超重或肥胖)之间的关联关系,并根据关联规则的支持度、置信度和提升度评价肥胖程度对发生常见慢病的影响。结果共对196554名居民的健康数据进行分析,高血压的患病率(48.6%)明显高于冠心病(22.9%)和糖尿病(20.3%),51.0%的人至少患有其中一种慢病,10.6%的人同时患有该3种慢病。关联规则分析结果显示,超重与高血压、冠心病之间均有强关联性,肥胖与高血压之间也有强关联性,而糖尿病与体型因素的关联性较弱。3种慢病之间均有强关联性,饮食嗜好与这3种慢病都有关联,老年人常常伴随发生高血压、糖尿病与冠心病。结论超重和肥胖会增加高血压、冠心病和糖尿病的发生风险,因此,为尽可能减少这些慢病的发生,健康人群要关注自身的肥胖情况,特别是老年人、有饮食偏好的人以及女性。 陈晨 王妮 黄艳群 周阳 李盛俊 陈卉关键词:高血压 冠心病 肥胖 关联规则挖掘 高血压患者合并重大慢性病关联规则分析 被引量:5 2019年 基于社区公共卫生系统数据集,应用Apriori关联规则算法,对高血压患者合并冠心病和糖尿病的潜在因素进行关联规则挖掘。全面分析高血压患者合并其他慢病的关联因素,提高慢病管理质量与效率。 朱碧云 王妮 黄艳群 乔伯文 李博 陈卉关键词:高血压 冠心病 关联规则挖掘 社区居民健康档案