刘玉娇 作品数:7 被引量:60 H指数:4 供职机构: 四川大学计算机学院 更多>> 发文基金: 国家自然科学基金 四川省科技支撑计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于集成分类器的用户属性预测研究 被引量:3 2017年 用户属性在个性化服务中具有重要的作用,利用手机数据进行用户属性预测逐渐成为新方向.利用手机应用类别均使用时长和应用类别个数,提出了基本属性与辅助属性的概念.首先对所有未标注样本的辅助属性离散化,将辅助属性基于类别的海灵格距离作为基本属性的特征权重,将基本属性与权重的乘积作为特征训练集成分类器中的各个基分类器,并引入随机森林中的带外样本准确率作为基分类器的权重,得到最终的分类结果.实验结果表明,本文所给出的集成分类器框架能够提高用户属性预测的效果. 王斯盾 琚生根 周刚 刘玉娇关键词:智能手机 离散化 基于Co-training的用户属性预测研究 2017年 针对当前基于第三方应用数据进行用户属性预测算法研究,其较少考虑应用前台实际使用时长问题,由此,本文在应用的使用频率及使用时长的基础上,构造了应用前台均使用时长特征,该特征能进一步刻画用户对应用的兴趣度;同时,为充分利用大量未标注数据,从多角度特征对用户属性进行预测,由此本文采用了Co-training框架,该框架包含两个均由栈式自编码器与神经网络相结合的网络结构。实验过程中,对于栈式自编码算法,先利用未标注的数据对网络进行参数初始化,使得网络参数处于一个较优的位置,再利用有标注的数据,采用基于准确率的梯度下降算法,对网络参数进行更新,最终达到收敛。实验结果表明,本文算法在准确率、召回率、F1值上均有所提高。 金玉 王霞 琚生根 孙界平 刘玉娇关键词:用户属性 CO-TRAINING 梯度下降算法 基于情感字典与连词结合的中文文本情感分类 被引量:17 2015年 本文首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语.而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,对于无感情词的句子,采用连词的方法来进行感情的判别.实验结果表明,该方法能够对不同领域的评论得到较好的感情分类效果. 刘玉娇 琚生根 伍少梅 苏翀关键词:共现 基于改进的Adaboost算法在网络入侵检测中的应用 被引量:16 2015年 网络入侵检测是一种基于网络行为特征的检测技术.近年来,作为信息安全领域中的研究热点,网络入侵检测发展迅速.针对传统入侵检测算法对于数据特征提取较慢的问题,本文提出了基于信息熵理论的免疫算法来提高特征提取速度.为了进一步提高分类精度,本文对Adaboost分类方法进行了改进,在分类过程中判断噪声数据,并对噪声数据的权重进行调整,从而缓解了Adaboost算法的过度拟合.通过对KDD CUP 99数据的实验结果表明,本文方法可以提高免疫算法在特征提取方面的收敛速度,并能有效地提高入侵检测率. 董超 周刚 刘玉娇 张德江关键词:入侵检测 ADABOOST 免疫算法 网络入侵 基于深度学习的中文微博命名实体识别 被引量:15 2016年 针对微博用语不规范、噪声多、更新快、缩略语多,且数据量大等相关特点,提出基于深度学习的方法进行微博命名实体的识别。首先利用大量的未标注的微博信息对自动编码器训练,获得抽象特征,随后将这些特征作为深度学习网络的输入,最后得出句子中每个字的类标。在进行自动编码器训练的过程中,使用卷积方法替代窗口移动方法,以获取句子中的长依赖信息。通过对新浪微博数据的实验结果表明,该深度学习方法能够提高微博中命名实体识别的F1值,说明了本文算法的有效性。 刘玉娇 琚生根 李若晨 金玉关键词:卷积 命名实体识别 中文微博命名体识别 被引量:8 2015年 近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果. 韩春燕 刘玉娇 琚生根 李若晨 苏翀关键词:条件随机场 基于深度特征的句子级文本情感分类 被引量:1 2016年 研究词深度特征池化法的句子级情感分类特征表示,在进行词向量学习时,首先利用中科院分词器对语料进行分词,通过word2vec中的CBOW模型计算语料中词的深度特征词向量;在情感分类过程中,首先对词深度特征采用均值、最值等池化方法获得整句话的特征,并以此作为神经网络模型的输入,通过一个线性层、Sigmoid激活层以及线性分类标注层,来判决得到该句的情感倾向。通过在当当书评语料上进行实验,结果表明均值与最值池化拼接的特征方法取得较好的分类效果,能够更好地表征句子级情感特征。 王波 刘玉娇关键词:文本情感 SIGMOID