孙瑞娜 作品数:17 被引量:92 H指数:7 供职机构: 新疆财经大学统计与信息学院 更多>> 发文基金: 国家自然科学基金 新疆维吾尔自治区高校科研计划 新疆维吾尔自治区哲学社会科学研究规划基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
SCEA:一种适应高维海量数据的并行聚类集成算法 被引量:8 2021年 针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并去除特征相关性的目的;其次,通过调用不同聚类算法获得基聚类成员后,采用三元组方法通过基聚类成员的簇标签构造出相似度矩阵,并调用层次聚类算法得到最终的聚类结果;最后,在调用MLlib中已有聚类算法的基础上,基于Scala对SCEA算法进行了实现.将SCEA与同类算法在多组数据集下进行对比测试,实验结果表明:总体上SCEA不仅较已有算法在准确率方面有所提高,并且通过分析运行时间、加速比以及可扩展性3个性能指标,证明了SCEA在算法性能上的优越性. 廖彬 黄静莱 王鑫 孙瑞娜 葛晓燕 葛晓燕关键词:并行聚类 数据降维 聚类集成 融合XGBoost与SHAP模型的足球运动员身价预测及特征分析方法 被引量:6 2022年 随着足球运动全球化程度的不断提升,全球转会市场愈发庞大,然而针对影响转会交易最关键的因素球员身价的深入模型及应用研究还较为缺乏。以国际足球联合会FIFA的官方球员数据库为研究对象,首先,在区分不同球员位置的前提下,运用Box-Cox变换、F-Score特征选择等方法对原始数据集进行特征处理;其次,通过XGBoost构建球员身价预测模型,并与Random Forest,Adaboost,GBDT,SVR等主流机器学习算法进行10折交叉验证实验对比,证明了XGBoost模型在R2,MAE,RMSE这3项指标上的性能优势;最后,在身价预测模型的基础上,融合SHAP框架分析不同位置影响球员身价的重要因素,为球员身价评估、身价对比分析、球员训练策略制定等场景提供决策支持。 廖彬 王志宁 李敏 孙瑞娜基于XGBoost的在线短租市场价格预测及特征分析模型 被引量:16 2021年 【目的】解决不同特征的房源缺乏合理定价建议的问题。【方法】基于Airbnb平台真实的营业数据,提出一种基于XGBoost的在线短租市场价格预测及特征分析模型。利用Lasso对原始数据进行特征提取并降维,再将特征提取后的数据作为XGBoost的输入,迭代训练获得最佳的预测模型,最后利用SHAP值对模型特征进行解释。【结果】实验结果表明,基于XGBoost的在线短租市场价格预测模型在调优超参数后,RMSE、MAE和R-squared分别能够达到0.091、0.065和0.798,优于4种主要的对比模型。【局限】由于数据源限制,模型训练数据未能与实时在线的业务数据流特征结合,可能导致模型实时适应能力偏弱。【结论】引入SHAP模型增强模型的可解释性,综合XGBoost与RandomForest的特征重要性排序结果,识别出影响房价的关键因素,为房东改进服务质量并提高收益提供决策参考。 曹睿 廖彬 李敏 李敏基于规则的哈萨克语基本名词短语识别研究 被引量:4 2010年 以哈萨克语基本名词短语识别为目标,采用基于规则的方法,从基本名词短语结构语法模型出发,利用哈萨克语基本名词短语的词性标记信息及构形附加成分信息,建立了基本名词短语规则集,设计了哈萨克语基本名词短语自动识别系统,实现了对30万词级哈萨克语语料库的基本名词短语标注。实验结果表明,该方法可行,识别精确率达到80.8%。 孙瑞娜 古丽拉.阿东别克关键词:语料库 基本名词短语 哈萨克语 短语结构 图神经网络节点分类任务基准测试及分析 2024年 图神经网络(Graph Neural Network,GNN)模型由于采用端到端的模型架构,在训练过程中能够更好地将节点隐藏特征的学习和分类目标协同起来,相比图嵌入(Graph Embedding)的方法,其在节点分类等任务上得到了较大的性能提升。但是,已有图神经网络模型实验对比阶段普遍存在的数据集类型单一、样本量不足、数据集切分不规范、对比模型规模及范围有限、评价指标单一、缺乏模型训练耗时对比等问题。为此,文中选取了包括cora,citeseer,pubmed,deezer等在内的来自不同领域(引文网络、社交网络及协作网络等)的共计20种数据集,以准确率、精确率、召回率、F-score值及模型训练耗时为多维评价指标,在FastGCN,PPNP,ChebyNet,DAGNN等17种主流图神经网络模型上,进行了全面且公平的节点分类任务基准测评,进而为真实业务场景下的模型选择提供了决策参考。通过基准测试实验发现,一方面,影响模型训练速度的因素排名依次是节点属性维度、图节点规模及图边的规模;另一方面,并不存在赢者通吃的模型,即不存在在所有数据集下全都表现优异的模型,特别是在公平的基准测试配置环境下,结构简洁的模型反而比复杂的GNN模型有着更好的性能表现。 张陶 张陶 于炯 于炯 李敏基于互信息的汉语基本名词短语自动识别 2012年 主要研究汉语基本名词短语自动识别问题。利用词语之间的互信息进行基本名词短语边界预测,然后根据基本名词短语构成规则对预测边界做调整,最后加入基本名词短语标注符,得到最终识别结果。 孙瑞娜 刘茜关键词:基本名词短语识别 互信息 基于LeaderRank的意见领袖发现模型及其应用 被引量:9 2021年 [目的/意义]随着网络和社交媒体的发展,网络"意见领袖"在网络社区的信息传播和交流中发挥着越来越重要的作用,在社会生活的各个方面对网络民意产生巨大的影响。因此,识别网络"意见领袖",掌握其特征和规律成为了网络信息传播研究的重要方面。[方法/过程]在PageRank思想的基础上,利用文本的TF-IDF计算网络社区用户节点的连接强度,以此改进PageRank算法,提出一种LeaderRank方法用来评价网络社区用户节点的重要度,并结合其他指标及BP神经网络进行"意见领袖"的发现实验以及进一步的数据挖掘工作。[结果/结论]实验结果表明,该方法相较于神经网络具有更高的识别率,该方法可以灵活配合其他指标和方法使用,具有更好的适用性、扩展性和稳定性。 钟磊 宋香荣 孙瑞娜关键词:网络社区 意见领袖 BP神经网络 识别率 面向SDN网络的QoS优化解决方案综述 被引量:12 2021年 SDN是一种蓬勃发展的新型网络体系结构,复杂的网络业务流量组成对多样QoS的需求给SDN网络路由造成了巨大挑战。为了解决SDN的QoS优化问题,学术界与工业界在SDN诞生之初进行了深入研究,提出了很多建设性的解决方案。通过深入调研,介绍SDN的基本架构,汇总并对比主流量的SDN控制器;分析SDN控制器中集成的QoS相关模块和参数;分析并归纳目前比较有影响且具有创新性的QoS优化方案;提出目前SDN网络QoS优化方案尚未解决的问题和在大规模数据中心网络、5G移动网络等新型SDN网络场景中的发展趋势。 孙瑞娜 廖彬关键词:服务质量 路由算法 调度策略 基于CRFs的哈萨克语名词短语自动获取 被引量:1 2015年 基于哈萨克语文本语料特点,分析名词短语构成规则,结合互信息(MI)知识,建立了哈萨克语名词短语特征模板,利用条件随机场(CRF)模型实现哈萨克语名词短语自动获取。实验表明,哈萨克语名词短语获取正确率达到95.2%,获取性能高于基于规则、基于规则与互信息结合的抽取方法。 孙瑞娜关键词:哈萨克语 名词短语 互信息 条件随机场 融合LightGBM与SHAP的糖尿病预测及其特征分析方法 被引量:15 2022年 人工智能在辅助医疗诊断方面得到广泛关注,对糖尿病预测的相关研究是近年来关注的一个热点问题.以皮马印第安人糖尿病数据集为研究对象,首先,对原始数据进行缺失值填充、异常值分析、标准化处理等工作的基础上,将预处理后的数据作为LightGBM训练模型的输入;其次,与已有工作中基于SVM、随机森林、决策树以及Xgboost等多种机器学习模型进行实验对比,结果表明本文模型在准确率、精确率、召回率、F1值、AUC值5项性能指标上均明显优于对比模型;最后,引入SHAP模型增强模型的可解释性,同时综合比较了LightGBM和Xgboost的特征重要性排序结果,识别出了影响糖尿病的主要因素,为糖尿病的疾病诊断提供决策参考. 王鑫 廖彬 李敏 李敏