您的位置: 专家智库 > >

孙瑞娜

作品数:17 被引量:92H指数:7
供职机构:新疆财经大学统计与信息学院更多>>
发文基金:国家自然科学基金新疆维吾尔自治区高校科研计划新疆维吾尔自治区哲学社会科学研究规划基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 16篇期刊文章
  • 1篇学位论文

领域

  • 16篇自动化与计算...
  • 2篇文化科学

主题

  • 6篇哈萨克语
  • 4篇互信息
  • 4篇基本名词短语
  • 3篇短语
  • 3篇XG
  • 2篇短语识别
  • 2篇语料
  • 2篇语料库
  • 2篇神经网
  • 2篇神经网络
  • 2篇最大熵
  • 2篇网络
  • 2篇基本名词短语...
  • 1篇调度
  • 1篇调度策略
  • 1篇短语抽取
  • 1篇短语结构
  • 1篇短租
  • 1篇心病
  • 1篇虚拟化

机构

  • 14篇新疆财经大学
  • 9篇新疆大学
  • 8篇中国科学院大...
  • 7篇中国科学院
  • 2篇贵州财经大学
  • 1篇新疆医科大学
  • 1篇贵州中医药大...

作者

  • 17篇孙瑞娜
  • 4篇李敏
  • 3篇李敏
  • 2篇张陶
  • 2篇钟磊
  • 1篇古丽拉·阿东...
  • 1篇陈莉
  • 1篇刘继
  • 1篇桑海岩
  • 1篇于炯
  • 1篇陈小昆
  • 1篇刘茜
  • 1篇宋香荣
  • 1篇葛晓燕
  • 1篇涂碧波

传媒

  • 3篇计算机应用研...
  • 2篇情报杂志
  • 2篇计算机科学
  • 1篇通信学报
  • 1篇电子学报
  • 1篇计算机应用与...
  • 1篇图书馆理论与...
  • 1篇小型微型计算...
  • 1篇计算机工程与...
  • 1篇中文信息学报
  • 1篇信息与电脑(...
  • 1篇数据分析与知...

年份

  • 1篇2024
  • 3篇2022
  • 6篇2021
  • 2篇2015
  • 1篇2014
  • 1篇2012
  • 1篇2011
  • 2篇2010
17 条 记 录,以下是 1-10
排序方式:
SCEA:一种适应高维海量数据的并行聚类集成算法被引量:8
2021年
针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并去除特征相关性的目的;其次,通过调用不同聚类算法获得基聚类成员后,采用三元组方法通过基聚类成员的簇标签构造出相似度矩阵,并调用层次聚类算法得到最终的聚类结果;最后,在调用MLlib中已有聚类算法的基础上,基于Scala对SCEA算法进行了实现.将SCEA与同类算法在多组数据集下进行对比测试,实验结果表明:总体上SCEA不仅较已有算法在准确率方面有所提高,并且通过分析运行时间、加速比以及可扩展性3个性能指标,证明了SCEA在算法性能上的优越性.
廖彬黄静莱王鑫孙瑞娜葛晓燕葛晓燕
关键词:并行聚类数据降维聚类集成
融合XGBoost与SHAP模型的足球运动员身价预测及特征分析方法被引量:6
2022年
随着足球运动全球化程度的不断提升,全球转会市场愈发庞大,然而针对影响转会交易最关键的因素球员身价的深入模型及应用研究还较为缺乏。以国际足球联合会FIFA的官方球员数据库为研究对象,首先,在区分不同球员位置的前提下,运用Box-Cox变换、F-Score特征选择等方法对原始数据集进行特征处理;其次,通过XGBoost构建球员身价预测模型,并与Random Forest,Adaboost,GBDT,SVR等主流机器学习算法进行10折交叉验证实验对比,证明了XGBoost模型在R2,MAE,RMSE这3项指标上的性能优势;最后,在身价预测模型的基础上,融合SHAP框架分析不同位置影响球员身价的重要因素,为球员身价评估、身价对比分析、球员训练策略制定等场景提供决策支持。
廖彬王志宁李敏孙瑞娜
基于XGBoost的在线短租市场价格预测及特征分析模型被引量:16
2021年
【目的】解决不同特征的房源缺乏合理定价建议的问题。【方法】基于Airbnb平台真实的营业数据,提出一种基于XGBoost的在线短租市场价格预测及特征分析模型。利用Lasso对原始数据进行特征提取并降维,再将特征提取后的数据作为XGBoost的输入,迭代训练获得最佳的预测模型,最后利用SHAP值对模型特征进行解释。【结果】实验结果表明,基于XGBoost的在线短租市场价格预测模型在调优超参数后,RMSE、MAE和R-squared分别能够达到0.091、0.065和0.798,优于4种主要的对比模型。【局限】由于数据源限制,模型训练数据未能与实时在线的业务数据流特征结合,可能导致模型实时适应能力偏弱。【结论】引入SHAP模型增强模型的可解释性,综合XGBoost与RandomForest的特征重要性排序结果,识别出影响房价的关键因素,为房东改进服务质量并提高收益提供决策参考。
曹睿廖彬李敏李敏
基于规则的哈萨克语基本名词短语识别研究被引量:4
2010年
以哈萨克语基本名词短语识别为目标,采用基于规则的方法,从基本名词短语结构语法模型出发,利用哈萨克语基本名词短语的词性标记信息及构形附加成分信息,建立了基本名词短语规则集,设计了哈萨克语基本名词短语自动识别系统,实现了对30万词级哈萨克语语料库的基本名词短语标注。实验结果表明,该方法可行,识别精确率达到80.8%。
孙瑞娜古丽拉.阿东别克
关键词:语料库基本名词短语哈萨克语短语结构
图神经网络节点分类任务基准测试及分析
2024年
图神经网络(Graph Neural Network,GNN)模型由于采用端到端的模型架构,在训练过程中能够更好地将节点隐藏特征的学习和分类目标协同起来,相比图嵌入(Graph Embedding)的方法,其在节点分类等任务上得到了较大的性能提升。但是,已有图神经网络模型实验对比阶段普遍存在的数据集类型单一、样本量不足、数据集切分不规范、对比模型规模及范围有限、评价指标单一、缺乏模型训练耗时对比等问题。为此,文中选取了包括cora,citeseer,pubmed,deezer等在内的来自不同领域(引文网络、社交网络及协作网络等)的共计20种数据集,以准确率、精确率、召回率、F-score值及模型训练耗时为多维评价指标,在FastGCN,PPNP,ChebyNet,DAGNN等17种主流图神经网络模型上,进行了全面且公平的节点分类任务基准测评,进而为真实业务场景下的模型选择提供了决策参考。通过基准测试实验发现,一方面,影响模型训练速度的因素排名依次是节点属性维度、图节点规模及图边的规模;另一方面,并不存在赢者通吃的模型,即不存在在所有数据集下全都表现优异的模型,特别是在公平的基准测试配置环境下,结构简洁的模型反而比复杂的GNN模型有着更好的性能表现。
张陶张陶于炯于炯李敏
基于互信息的汉语基本名词短语自动识别
2012年
主要研究汉语基本名词短语自动识别问题。利用词语之间的互信息进行基本名词短语边界预测,然后根据基本名词短语构成规则对预测边界做调整,最后加入基本名词短语标注符,得到最终识别结果。
孙瑞娜刘茜
关键词:基本名词短语识别互信息
基于LeaderRank的意见领袖发现模型及其应用被引量:9
2021年
[目的/意义]随着网络和社交媒体的发展,网络"意见领袖"在网络社区的信息传播和交流中发挥着越来越重要的作用,在社会生活的各个方面对网络民意产生巨大的影响。因此,识别网络"意见领袖",掌握其特征和规律成为了网络信息传播研究的重要方面。[方法/过程]在PageRank思想的基础上,利用文本的TF-IDF计算网络社区用户节点的连接强度,以此改进PageRank算法,提出一种LeaderRank方法用来评价网络社区用户节点的重要度,并结合其他指标及BP神经网络进行"意见领袖"的发现实验以及进一步的数据挖掘工作。[结果/结论]实验结果表明,该方法相较于神经网络具有更高的识别率,该方法可以灵活配合其他指标和方法使用,具有更好的适用性、扩展性和稳定性。
钟磊宋香荣孙瑞娜
关键词:网络社区意见领袖BP神经网络识别率
面向SDN网络的QoS优化解决方案综述被引量:12
2021年
SDN是一种蓬勃发展的新型网络体系结构,复杂的网络业务流量组成对多样QoS的需求给SDN网络路由造成了巨大挑战。为了解决SDN的QoS优化问题,学术界与工业界在SDN诞生之初进行了深入研究,提出了很多建设性的解决方案。通过深入调研,介绍SDN的基本架构,汇总并对比主流量的SDN控制器;分析SDN控制器中集成的QoS相关模块和参数;分析并归纳目前比较有影响且具有创新性的QoS优化方案;提出目前SDN网络QoS优化方案尚未解决的问题和在大规模数据中心网络、5G移动网络等新型SDN网络场景中的发展趋势。
孙瑞娜廖彬
关键词:服务质量路由算法调度策略
基于CRFs的哈萨克语名词短语自动获取被引量:1
2015年
基于哈萨克语文本语料特点,分析名词短语构成规则,结合互信息(MI)知识,建立了哈萨克语名词短语特征模板,利用条件随机场(CRF)模型实现哈萨克语名词短语自动获取。实验表明,哈萨克语名词短语获取正确率达到95.2%,获取性能高于基于规则、基于规则与互信息结合的抽取方法。
孙瑞娜
关键词:哈萨克语名词短语互信息条件随机场
融合LightGBM与SHAP的糖尿病预测及其特征分析方法被引量:15
2022年
人工智能在辅助医疗诊断方面得到广泛关注,对糖尿病预测的相关研究是近年来关注的一个热点问题.以皮马印第安人糖尿病数据集为研究对象,首先,对原始数据进行缺失值填充、异常值分析、标准化处理等工作的基础上,将预处理后的数据作为LightGBM训练模型的输入;其次,与已有工作中基于SVM、随机森林、决策树以及Xgboost等多种机器学习模型进行实验对比,结果表明本文模型在准确率、精确率、召回率、F1值、AUC值5项性能指标上均明显优于对比模型;最后,引入SHAP模型增强模型的可解释性,同时综合比较了LightGBM和Xgboost的特征重要性排序结果,识别出了影响糖尿病的主要因素,为糖尿病的疾病诊断提供决策参考.
王鑫廖彬李敏李敏
共2页<12>
聚类工具0