您的位置: 专家智库 > >

李艳红

作品数:14 被引量:39H指数:4
供职机构:山西大学计算机与信息技术学院更多>>
发文基金:国家自然科学基金山西省自然科学基金山西省科技攻关计划项目更多>>
相关领域:自动化与计算机技术文化科学经济管理更多>>

文献类型

  • 11篇中文期刊文章

领域

  • 10篇自动化与计算...
  • 1篇文化科学

主题

  • 3篇数据流
  • 2篇信息熵
  • 2篇数据流分类
  • 2篇主动学习方法
  • 2篇网络
  • 2篇文本
  • 2篇流分类
  • 2篇聚类
  • 2篇概念漂移
  • 1篇多标记
  • 1篇多标记学习
  • 1篇语料
  • 1篇增量聚类
  • 1篇增量数据
  • 1篇知识库
  • 1篇入侵
  • 1篇入侵检测
  • 1篇神经网
  • 1篇神经网络
  • 1篇实践教学

机构

  • 11篇山西大学
  • 1篇西南民族大学
  • 1篇石家庄铁道大...

作者

  • 11篇李艳红
  • 8篇李德玉
  • 6篇王素格
  • 2篇白鹤翔
  • 1篇陈千
  • 1篇郑家恒
  • 1篇崔梦天
  • 1篇李艳红
  • 1篇郭鑫
  • 1篇李华
  • 1篇廖健

传媒

  • 2篇自动化学报
  • 2篇计算机应用
  • 1篇模式识别与人...
  • 1篇数据采集与处...
  • 1篇计算机应用与...
  • 1篇计算机工程与...
  • 1篇计算机科学
  • 1篇计算机教育
  • 1篇计算机技术与...

年份

  • 3篇2024
  • 1篇2023
  • 1篇2022
  • 2篇2020
  • 1篇2019
  • 2篇2015
  • 1篇2009
14 条 记 录,以下是 1-10
排序方式:
基于数据流的网络入侵实时检测框架被引量:13
2015年
针对计算机网络访问请求具有实时到达以及动态变化的特点,为了实时检测网络入侵,并且适应网络访问数据的动态变化,提出一个基于数据流的网络入侵实时检测框架。首先,将误用检测模式与异常检测模式相结合,通过初始聚类建立由正常模式和异常模式构成的知识库;其次,采用数据点与数据簇之间的不相似性来度量网络访问数据与正常模式和异常模式的相似性,从而判定网络访问数据的合法性;最后,当网络访问数据流发生演化时,通过重新聚类来更新知识库以反映网络访问的最近状态。在入侵检测数据集KDDCup99上进行实验,当初始聚类的样本数为10 000,缓冲区聚类的样本数为10 000,调节系数为0.9时,召回率达到91.92%,误报率达到0.58%,接近传统非实时检测模式的结果,但整个学习和检测过程只需扫描网络访问数据一次,并引入了知识库的更新机制,在入侵检测的实时性和适应性方面更具有优势。
李艳红李德玉崔梦天李华
关键词:数据流入侵检测知识库信息熵
面向微博文本流的负面情感突发话题检测被引量:5
2020年
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。
李艳红赵宏伟王素格李德玉
融合句法信息的实体关系联合抽取
2024年
实体关系抽取是自然语言处理领域知识图谱构建的关键技术之一,有助于知识图谱自动化更新和扩充,并为下游任务提供重要的知识库支持。目前实体关系抽取方法大多从单一角度进行特征提取,导致特征表达能力不足,同时级联错误累积现象严重,无法较好针对实体关系重叠、实体嵌套现象进行适配,极大地影响实体关系抽取的精度和效率。为了同时解决这些问题,提出了一种融合语义和依存句法信息的实体关系联合抽取方法。该方法采用预训练语言模型BERT提取语义特征;然后利用句法注意力图卷积神经网络获取依存句法特征;最终,融合语义特征和依存句法特征对句子中多个关系的主客实体位置进行预测标记。实验结果表明,所提模型在NYT和WebNLG公共数据集上的F1值分别达到了92.8%和91.1%,与基线模型和其他深度学习模型相比,模型在重叠实体抽取上取得了较好的效果,验证了模型的有效性。
胡翼于海郭鑫陈千廖健郑建兴李艳红杨可涵
关键词:关系抽取
大规模语料库可用性评测方法被引量:1
2009年
提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语料库可用性的瓶颈因素,进而提出针对性的改进措施。最后,举例说明了该方法在语料库上的应用。
李艳红郑家恒
关键词:大规模语料库层次分析法
基于双空间模糊辨识关系的多标记特征选择被引量:8
2019年
已有的基于模糊粗糙集的多标记特征选择算法多从单一的样本空间刻画属性区分能力,忽视属性对标记的区分能力.基于这一认识,文中同时从样本和标记两个空间出发,提出基于双空间模糊辨识关系的多标记特征选择算法.首先,基于模糊辨识关系分别从样本和标记角度定义两种多标记属性重要性度量,然后通过权重融合的方式融合两种度量,基于融合后的度量,运用前向贪心算法构建多标记特征选择算法.在5个数据集上的对比实验验证本文算法的有效性.
姚二亮李德玉李艳红白鹤翔张超
关键词:多标记学习模糊粗糙集
非平衡概念漂移数据流主动学习方法
2024年
数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真实场景下是不现实的.此外,真实数据流可能表现出较高且不断变化的类不平衡比率,会进一步增加数据流分类任务的复杂性.为此,提出一种非平衡概念漂移数据流主动学习方法 (Active learning method for imbalanced concept drift data stream, ALM-ICDDS).定义基于多预测概率的样本预测确定性度量,提出边缘阈值矩阵的自适应调整方法,使得标签查询策略适用于类别数较多的非平衡数据流;提出基于记忆强度的样本替换策略,将难区分、少数类样本和代表当前数据分布的样本保存在记忆窗口中,提升新基分类器的分类性能;定义基于分类精度的基分类器重要性评价及更新方法,实现漂移后的集成分类器更新.在7个合成数据流和3个真实数据流上的对比实验表明,提出的非平衡概念漂移数据流主动学习方法的分类性能优于6种概念漂移数据流学习方法.
李艳红王甜甜王素格李德玉
关键词:数据流分类概念漂移
基于特征扩展的微博短文本流热点话题检测方法被引量:1
2022年
随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection,FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection,T-TD)和基于突发词的话题检测(Burst words-based topic detection,BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。
李艳红谢梦娜王素格李德玉
关键词:增量聚类
非平衡数据流在线主动学习方法
2024年
数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法.
李艳红任霖王素格李德玉
关键词:数据流分类概念漂移
基于动态窗口的微博突发话题检测方法被引量:4
2020年
微博突发话题的检测是网络舆情分析的一个重要分支,如何实时高效地发现微博文本流中的突发话题是目前亟待解决的问题。为此提出一种基于动态窗口的微博突发话题检测方法。将词对加速度作为突发特征,根据微博文本流中突发词对出现的速度自适应地确定突发话题窗口范围,并利用改进的非负矩阵分解聚类方法获取突发话题窗口中微博的主题结构。在微博文本流上的对比实验表明,该检测方法不但可以减少突发话题检测的时间延迟,而且能够提高检测的准确率和召回率。
李艳红李艳红王素格王素格
关键词:非负矩阵分解
一种符号型增量数据标签算法被引量:3
2015年
数据标签是一种提高增量数据聚类效率的简单而有效的方法。数据标签就是分配每个新增数据点到与之最相似的簇的过程。符号数据分析的难点之一在于缺少一种恰当的方法来定义数据点与数据簇之间的相似性。为此,将簇代表定义为簇中所有属性的属性值及其在簇中的频率构成的列表,用信息熵的变化来定义"点-簇"不相似性。基于此不相似性度量,设计了一个符号型增量数据标签算法来分配无标记数据到恰当的簇。在公开数据集和文本语料上的对比实验表明,该数据标签算法不但数据标记精度高、时间开销小,而且有较好的可伸缩性。
李艳红李德玉王素格
关键词:聚类增量数据信息熵
共2页<12>
聚类工具0