黄磊 作品数:14 被引量:39 H指数:3 供职机构: 西南交通大学数学学院 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 教育部人文社会科学研究基金 更多>> 相关领域: 理学 经济管理 医药卫生 自动化与计算机技术 更多>>
基于特征筛选与机器学习的医疗保险报销比例预测研究 被引量:1 2023年 目的对国家医疗保障疾病诊断相关分组中胸部大手术组的医疗保险报销比例进行数据驱动的辅助预测,为医疗保险经办机构及医疗机构精准有效地预测按病种分组医保支付情况提供参考。方法以四川省某大型三甲医院2020年的胸部大手术病例信息为样本,通过多元线性回归模型和基于特征筛选的机器学习改进方法,将全部数据集的70%作为训练数据集,30%作为测试数据集,对医保支出情况进行预测。结果随机森林、Logistic回归、支持向量机三种机器学习方法在筛选特征数量相同时,预测效果无统计学差异。预测效果最优的模型准确率为78.96%,敏感性为83.93%,特异性为71.27%,精确度为0.8188,AUC值为0.8414,Kappa值为0.6108。结论疾病诊断数量、手术操作数量及患者年龄对报销比例影响较大。治疗费、材料费、手术费及西药费为住院费用的主要方面。基于特征筛选的机器学习改进方法优于传统的统计线性模型,且选取合适的特征数量能够使模型在较高的效率下达到更好的预测效果。 杨赫祎 冯玉 李天俊 卢施岐 黄磊关键词:医疗保险 报销比例 针对秩序多项特征变量的一种改进随机森林算法 被引量:3 2022年 针对含秩序多项特征变量的二分类问题,利用互信息的刀切估计(JMI)先对特征变量进行排序和筛选,结合秩序多项特征变量的伪项识别及融合方法,为随机森林提出一种新的可有效处理含秩序多项特征变量的合成算法。通过对实际的包含秩序多项特征变量的银行信贷数据以及学生成绩调查数据进行仔细对比分析,验证了所提出算法的实用性和有效性。 周晓霞 张治飞 杨赫祎 黄磊关键词:互信息 Laplace周期图与关联性检验相结合的半监督信号异常检测方法 2024年 信号异常检测方法具有普遍的研究意义和广泛的实用价值.该文首先研究Laplace周期图的统计性质,再结合用于关联性检验的有力工具互信息的刀切估计(JMI),对两段信号的Laplace周期图对数比进行统计检验,可判断所检测信号是否具有相同的归一化动态特征.作为一种半监督的异常检测方法,可在已知正常信号标签的情况下,以动态特征检测出未知信号是否异常.统计模拟试验和滚动轴承数据的实例分析显示,该文所提的新方法优于Laplace周期图分别与B样条F检验(B-spline F test)、Ljung-Box Q检验(LBQ)、游程检验(run test)相结合的方法,兼顾了稳健性和较低的犯错概率,具备一定的实用性和有效性. 卢施岐 杨宝莹 黄磊关键词:时间序列 异常检测 JMI 基于非参检验及多元回归分析的不同医保医疗费用自付比例研究——以成都市某医院Ⅱ型糖尿病患者为例 2024年 医保改革和医疗费用是重要民生问题,人们关注不同医保类型的医疗费用自付比例是否存在差异和医疗费用自付比例的影响因素。基于此,本文用排列检验方法和交互效应模型,分析四川省成都市某三级甲等医院2020年1月至2021年12月内分泌科的Ⅱ型糖尿病患者的出院结算数据,探究城乡居民医保患者和城镇职工医保患者的医疗费用自付比例是否有显著差异以及医疗费用自付比例的影响因素,为医保的后续改革提供依据。研究结果发现2种医保患者的医疗费用自付比例有显著差异,检查费用比例等多种费用比例的增加会增加医疗费用自付比例;在低维情况下,本文所使用的高维排列检验方法与Hotelling T^(2)排列检验的结果一致。 蔡学峰 李天俊 黄磊关键词:医疗保险 交互效应 基于Jackknife互信息的高维非线性回归模型研究 被引量:2 2022年 确定独立筛选(SIS)方法在处理超高维稀疏线性回归模型的变量选择问题上已得到了广泛的应用,且已被推广到处理广义线性回归模型的变量选择问题。但SIS不能很好地解决非线性回归模型的变量选择问题,关于该问题的现有研究也较少,因此,如何有效地对超高维稀疏非线性回归模型进行变量选择是一个具有研究价值的问题。本文在经典的SIS方法基础上,利用互信息的刀切估计(JMI),提出JMI与SIS相结合的方法,给出具体算法步骤,以实现超高维稀疏非线性回归模型的变量选择问题,并通过一些有代表性的统计模拟试验,验证所提方法的相合性,同时通过2个超高维基因数据的实例分析,对所提方法的可行性以及实用性进行说明。 张治飞 段谦 刘乃嘉 黄磊关键词:SIS JMI 相合性 高维纵向数据的亚组识别方法及应用 被引量:1 2022年 在高维纵向数据建模的背景下,构建了一种数据驱动的亚组识别方法,将极大极小凹惩罚方法和同质划分方法结合起来,并基于二值分割法对回归系数之间的变点进行识别。通过统计模拟实验,将所构建的亚组识别方法和其他6种方法进行对比,检验了所构建的亚组识别方法的性能。通过一个实例数据的分析,即国内各地区生产总值和产业结构的建模,进一步阐述了该方法的优势。 段谦 吉洋莹 黄磊关于Log Gaussian Mixture Cox过程模型的研究 2020年 Log Gaussian Cox过程模型(简称LGCP模型)常用来描述关于空间变化的随机过程,但是它不能很好地拟合强度取对数后是非高斯过程情况下的数据。因此,通过将它的强度取对数后看成是一个混合高斯过程来改进LGCP模型,并研究改进后模型的性质。采用极大似然估计法和MCMC方法来估计模型参数,以及用AIC准则作模型选择。最后通过实例验证,结果显示改进后的模型能够有效地拟合数据。 王慧霞 赵联文 黄磊关键词:极大似然估计 MCMC方法 半变系数模型平均的权重估计研究 2020年 预测是重要的统计学数据分析任务之一,广泛运用的参数模型对数据的分布以及数据之间的相互关系有较强的假设,而非参数模型在涉及多维解释变量时会因维度灾难而导致模型的估计和预测效果都不理想。因此,本文将运用一种新的变系数半参数模型平均预测(VC-SMAP)的方法来进行预测,并且提出一种改进的确定模型权重的研究思路,即首先用训练集来估计模型参数,再用验证集来估计模型权重,最后用测试集来判断预测效果,其中运用了样条估计方法对半变系数模型进行参数估计,并用二次规划估计了模型权重。此外,还通过数值模拟的例子来展示所提方法的改进效果。另外还进行了实证分析,其结果也表明所提出的研究思路可行且更有效。 薛婷 谭安琪 李维萍 黄磊关键词:半变系数模型 样条估计 AIC准则与留一法交叉验证渐近等价的证明 被引量:12 2022年 AIC准则与留一法交叉验证是进行模型选择的常用方法。现有的证明二者渐近等价的方法是极大似然估计法。文章在线性模型的基础上,用删除残差与普通残差间的关系来推导AIC准则与留一法交叉验证对模型选择的效果,发现其是渐近等价的。这样的方法适用性更为广泛。最后通过仿真模拟和实际数据分析验证了结论。 文冰梅 赵联文 黄磊含顺序类别自变量的中位数惩罚回归及应用研究 2022年 中位数回归不对误差项分布做过强假设且对异常值不敏感,可以提高回归模型的稳健性。自适应LASSO进行变量选择时对自变量采用有差别的惩罚系数,避免了系数的过度压缩。对于含有顺序类别自变量数据进行回归建模时,考虑到此类自变量中伪分类的存在。构建了一种通过哑变量的线性变换,并结合自适应LASSO惩罚的中位数回归方法。该方法不仅能够进行变量选择得到稳健的估计结果还能进行伪分类的识别与融合。通过2个实际数据验证了该方法的可行性和有效性。 吉洋莹 潘雨辰 黄磊