薛薇 作品数:17 被引量:62 H指数:5 供职机构: 中国人民大学统计学院 更多>> 相关领域: 经济管理 社会学 理学 自动化与计算机技术 更多>>
文本聚类中罚多项混合模型的特征选择及其在互联网舆情分析中的应用 被引量:2 2012年 高维稀疏数据的特征选择是互联网舆情文本聚类分析的关键。借鉴罚模型思想,利用罚多项混合模型,给不显著影响聚类结果的特征予较重惩罚的方式实现特征选择,可有效选出代表舆情各类观点的典型词汇,实证应用中有较为理想的表现。 薛薇 陈欢歌关键词:混合模型 文本聚类 舆情分析 数据挖掘的客户关系管理应用研究 薛薇关键词:数据挖掘 客户关系管理 非合约型客户终身价值的稳健性度量:经典方法与机器学习算法的综合测算研究 被引量:5 2019年 客户终身价值(CLV)是企业进行客户关系管理的基础,然而非合约关系下客户终身价值的度量一直是研究的难点。本文重点探讨了以Pareto/NBD和BG/NBD为代表的经典概率模型和以GAM和SVM为代表的机器学习算法在非合约客户终身价值度量中的应用。通过对两个数据集的实证研究,对比了四种方法的特点和预测能力。研究发现经典概率模型的预测值较为平稳,适用于描述消费者日常消费规律; GAM则对数据中极端变化的捕捉跟踪能力较强,适用于预测由于门店促销、线上促销和节假日等带来的不规律的集中消费或延时消费的情况。经典方法和机器学习算法对客户终身价值的预测各有所长,基于单一方法的预测会有一定偏差,为得到小偏差和高稳健性的CLV估计,本文认为基于多方法的综合预测是理想的CLV建模策略。 成栋 孙莹璐 薛薇基于统计数据的OLAP数据挖掘技术 被引量:11 2002年 Statistical data is an important object In summarizablllty of OLAP.In this paper we explore the three conditions for summarizability by analysis the character of statistical data, and introduce a statistical semantic framework to avoid the erroneous conclusions and decisions In the process of OLAP. 薛薇关键词:数据挖掘 中国地区国民素质竞争力评价与分析 本文通过对我国地区国民素质总指数和分类指数的基本评价与分析,初步了解地区间竞争力的比较优势以及评价体系中各指标之间的结构关系,为最优竞争力结构的形成研究提供基础数据。 赵彦云 刘畅 薛薇关键词:竞争力 文献传递 数据挖掘系列讲座之二 数据挖掘与数据仓库 被引量:5 2003年 当今数据容量规模已经达到万亿字节(TB)的水平。过量的数据被人们称为信息爆炸,带来的挑战是:一方面规模庞大、纷繁复杂的数据体系让使用者漫无头绪、无从下手,另一方面在这些大量数据的背后却隐藏着很多具有决策意义的有价值的信息。那么,如何发现这些有用的知识,使之为管理决策和经营战略发展服务?计算机科学给出的最新回答是:数据挖掘(Data Mining)。 薛薇关键词:数据挖掘 字节 从统计应用框架探讨统计学科的发展 被引量:1 2005年 统计应用是统计学科产生发展的源泉与动力。分析统计应用的变化趋势是研究统计学科发展方向的重要思路与核心依据,同时也是统计学科面向市场、面向需求培养应用型和研究型人才的集中体现。 薛薇关键词:统计应用 非平衡数据集的改进SMOTE再抽样算法 被引量:22 2012年 非平衡数据集的不均衡学习特点通常表现为负类的分类效果不理想。改进SMOTE再抽样算法,将过抽样和欠抽样方式有机结合,有针对性地选择近邻并采用不同策略合成样本。实验表明,分类器在经此算法处理后的非平衡数据集的正负两类上,均可获得较理想的分类效果。 薛薇关键词:非平衡数据集 基于突发性诊断的网络热点事件识别方法 被引量:1 2015年 在TDT研究的基础上,文章提出以事件文本中词语出现的时间间隔序列为研究对象,通过状态发生器模型和贝叶斯估计方法,诊断词语的突发性以最大化拟合间隔序列。进一步通过突发词的加权聚类算法实现网络热点事件的识别。实证表明该方法具有较高的判别能力,是从非频数角度识别热点事件的重要尝试。 薛薇北京市国民素质竞争力评价 <正> 一、基本理论国民素质作为国际竞争力评价体系中的基本要素之一,已成为一个国家基础竞争力的重要组成部分,它反映了一国人力资本的发展状况,是一国或地区经济社会长期持续发展和成长综合能力的重要支撑,以人为本,国民素质竞争... 刘畅 薛薇文献传递