目的:梳理目前流感预测研究中多源数据的应用,为流感等传染病监测研究提供启示和参考。方法:系统检索Web of Science数据库、Scopus数据库、PubMed数据库、中国知网(CNKI)数据库、万方数据知识服务平台和维普中文期刊服务平台,检索时间为2009年1月至2022年4月。纳入基于多源数据进行流感预测的相关研究文献,并对符合纳入和排除标准的文献进行评述。结果:共纳入文献115篇,根据多源数据使用频率,从高至低依次为互联网数据、环境数据、症状监测数据和组合数据,基于多源数据的流感预测模型包括传染病模型、时空模型、机器学习模型和集成模型。结论:基于传统监测系统和新型数据源的预测模型在提升流感预测预警能力上已取得成效,但仍需从数据质量提升、预测模型优化、预警系统平台和工具改进、信息技术集成等方面进一步提高预测的准确性和及时性。
目的本研究旨在有效识别临床文本中的隐私信息,以保护患者隐私,实现临床信息的共享与利用,促进基于临床医学证据研究的发展。方法采用中国四川省某市级区域人口健康信息平台随机抽取的18350条住院小结作为样本,基于条件随机域(conditional random field,CRF)模型,对样本数据中多种PHI类型进行识别。结果人工标注PHI实体总数为32210个,标注一致性达到92.7%,经过对不一致标记进行校正审核,一致性收敛至100%。测试结果评估显示,除病理号、X线片号、89岁以上的年龄以外,其他PHI类型的F值均超过95%,综合F值达到98.72%。结论本研究基于大规模多样化临床文本数据,利用机器学习的方法,实现了高效的自动化临床文本去识别。对于在保护模型的基础上开发更高效的健康大数据去识别算法以及保证去识别技术的一般性和可扩展性的研究还有待探索。