搜索到899篇“ 文本自动分类“的相关文章
- 基于改进KNN算法的档案信息文本自动分类方法研究
- 2024年
- 常规的档案信息文本自动分类方法主要使用Bloom二维分类矩阵标注分类特征,导致分类评价指标偏低。对此,提出基于改进K最近邻(K-Nearest Neighbor,KNN)算法的档案信息文本自动分类方法,即提取档案信息文本自动分类特征,再利用改进KNN算法优化信息文本自动分类流程,实现档案信息文本自动分类。实验结果表明,基于改进KNN算法的档案信息文本自动分类方法的加权精确率(weighted-P)、加权召回率(weighted-R)、加权F值(weighted-F)均较高,证明该方法的分类效果较好,有一定的应用价值。
- 潘国炀
- 关键词:档案信息文本
- 一种小样本文本自动分类方法及系统
- 本发明涉及自然语言处理与人工智能领域,公开了一种小样本文本自动分类方法及系统,方法包括将待分类的文本数据等进行元任务构建,以获取支撑集、查询集以及标签描述信息,并得到元任务样本集合,分词处理后进行嵌入,以获取样本对应的词...
- 徐小龙徐旸
- 一种小样本文本自动分类方法及系统
- 本发明涉及自然语言处理与人工智能领域,公开了一种小样本文本自动分类方法及系统,方法包括将待分类的文本数据等进行元任务构建,以获取支撑集、查询集以及标签描述信息,并得到元任务样本集合,分词处理后进行嵌入,以获取样本对应的词...
- 徐小龙徐旸
- 基于TI-LSTM的文本自动分类算法及应用被引量:1
- 2023年
- 为了有效解决中文文本分类问题,提高文本分类的准确性,提出一种基于TF-IDF和神经网络相结合的文本自动分类算法——TI-LSTM算法。算法根据语义情景提取相应特征,进行量化,通过长短期神经网络(LSTM)对量化后的特征进行训练并赋予权重,最后以特征权重为依据对中文文本信息进行评价。使用TI-LSTM算法可以在保留原文语义的情况下准确提取特征。将该算法应用到长春理工大学贫困生等级分类研究中。与传统的KNN、逻辑回归、朴素贝叶斯和LSTM分类方法进行了比较,训练和测试的准确率都有了较大的提升,准确率达到了86%以上。
- 陈玉天陈洋梁恒瑞孙绍宇施三支
- 关键词:文本分类特征提取贫困生
- 基于LDA模型融合Catboost算法的文本自动分类系统设计与实现被引量:2
- 2023年
- 互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。
- 刘爱琴郭少鹏张卓星
- 关键词:文本自动分类SVM算法
- 电力设备缺陷文本自动分类实现方法
- 本发明涉及电力系统领域,尤其涉及电力设备缺陷文本自动分类实现方法,包括:以输变电一次设备缺陷分类标准作为分类依据,建立树形结构模型;通过树路径匹配方法,将待分类的缺陷文本同生成的树结构进行树路径匹配,找到该缺陷文本对应的...
- 吴向宏梁杰陆金龙李建红陈杭升
- 基于BERT-BiGRU的中文专利文本自动分类被引量:7
- 2023年
- 针对中文发明专利文本的文字描述专业性强、人工分类耗时耗力等问题,提出一种基于BERT-BiGRU模型的中文专利文本自动分类方法,利用预训练的BERT模型完成对中文发明专利文本进行向量化语义表征,引入词嵌入和多头注意力机制等方法抽取专利文本中词语的上下文语境语义信息,最终通过双向GRU门控网络完成对中文发明专利的分类。以Incopat专利数据库中的专利文本构建数据集,设计多组对比实验,实验结果表明,所提方法可以有效提高分类模型对中文专利文本的差异性特征提取能力,对8类专利文本的分类准确率达到了85.44%。
- 刘燕
- 基于CNN-BiLSTM网络的数控机床故障文本自动分类被引量:1
- 2023年
- 中小数控机床企业在运营维护中积累了大量以人工文本记录的故障维修数据。为了实现高效精准分类,帮助维修人员高效开展工作,本文提出一种基于卷积神经网络和双向长短时记忆网络的故障文本分类预测方法。首先通过构建专业特征词库完成预处理,并采用Word2Vec训练词向量;其次CNN层提取文本向量的局部特征后,前后向LSTM提取上下文特征;全连接层对CNN和BiLSTM层进行特征融合和加权后,全连接层通过Softmax激活函数找到概率最大的输出作为预测结果,并用混淆矩阵呈现各个类别预测准确率。本文依据长三角某企业的故障数据进行实验分析,并与单个CNN和BiLSTM模型对比,实验结果表明新方法预测精度可达94%,平均准确率提高11个百分点,P值、R值和F值均达95%,可作为在小数据量故障文本分类领域的有效方法。
- 徐涯昕何泽恩徐绪堪
- 关键词:文本分类数控机床故障
- 结合短文本扩展和BERT的商品评论文本自动分类被引量:4
- 2023年
- 针对商品评论文本具有短文本及表述用词不规范的特点,探讨如何实现商品评论文本按照商品种类进行自动归类并提高其分类效果。通过TF-IDF和LDA构建训练集的核心词集,利用Word2Vec相似度计算方式对短文本进行特征扩展获得的商品评论文本作为分类对象,基于BERT模型实现分类,并设计相应的对比实验证明本方法的有效性。对商品评论文本扩展后使用BERT分类时,本文方法比未扩展时的F1值提升2.1%,比使用Hownet相似度计算方式扩展时的F1值提升0.9%。从基本原理、不同相似度计算方法以及用词方式等方面分析本方法有效性的原因。本文提出的方法能有效提升商品评论文本按照商品进行信息组织时的分类效果,可以应用于电子商务信息的信息组织及其相关理论方法研究等领域。
- 李湘东孙倩茹石健
- 基于深度学习的藏文文本自动分类研究
- 2023年
- 在藏文信息处理中,文本分类技术可以将藏文文档自动分类为某种提前设定的类别,因此藏文文本分类在信息检索、新闻推荐等应用中具有重要的应用价值。传统的文本分类方法需要复杂的特征工程处理,分类效果不是非常理想。随着深度学习的快速发展,基于深度学习的藏文文本分类方法成为主要研究趋势。文章提出基于双向LSTM的文本分类方法,在藏文文本分类数据集上进行实验,本文算法的精准率、召回率、F1分数分别提升2.56%、1.87%和1.75%。
- 索南多杰官却多杰拉玛杰公保加羊
- 关键词:藏文信息处理文本分类
相关作者
- 李湘东

- 作品数:53被引量:283H指数:9
- 供职机构:武汉大学信息管理学院
- 研究主题:文本分类 LDA模型 书目信息 非人灵长类动物 LDA
- 薛德军

- 作品数:17被引量:29H指数:2
- 供职机构:同方知网(北京)技术有限公司
- 研究主题:主题 中文文本自动分类 向量空间模型 抽取 页面制作
- 孙茂松

- 作品数:351被引量:2,346H指数:25
- 供职机构:清华大学
- 研究主题:向量 中文信息处理 机器翻译 句子 自然语言处理
- 夏诏杰

- 作品数:23被引量:37H指数:4
- 供职机构:中国科学院过程工程研究所
- 研究主题:搜索引擎 化学信息学 PORTAL 文本自动分类 化学数据库
- 王明文

- 作品数:266被引量:1,022H指数:16
- 供职机构:江西师范大学
- 研究主题:文本分类 MARKOV网络 信息检索 语言模型 查询扩展