搜索到2094篇“ 关键词自动抽取“的相关文章
基于先验知识的纺织论文关键词自动抽取系统研究被引量:1
2024年
为解决文章关键词数量过少、义泛化、选生僻、一义多等问题,在搜集整理大量纺织领域论文和专业名的基础上,遵循“避免泛化”和“作者习惯”的原则,提出一种基于先验知识的论文关键词抽取新算法。首先统计候选关键词在概要库和关键词集中的出现频次,计算其先验概率;再借鉴“影响因子百分位”的思想,计算每个候选关键词频百分位,得到候选关键词的排序指标用于关键词抽取系统的排序推荐。经测试,该算法平均准确率(F1值)是无监督关键词抽取算法Tex⁃tRank的1.7倍,并高于计算机领域同类型的半监督主流算法,证明了先验知识用于关键词排序推荐的有效性。
李启正戴豪胡崴琳祝成炎
关键词:自动抽取先验知识先验概率
一种关键词自动抽取方法
本发明涉及一种关键词自动抽取方法,包括:抽取技术标准中的通用抽取候选关键词,针对候选关键词过滤通用后,综合位置特征、共现特征以及上下文语义特征计算候选关键词权重得分,根据候选关键词权重得分范围计算动态阈值,利用动...
吕学强董志安
一种基于科技文献图网络的关键词自动抽取方法
本发明公开了一种基于科技文献图网络的关键词自动抽取方法,所述方法包括:根据文献引用关系和共同作者信息,为一个设定的科技文献集合建立科技文献图网络;基于科技文献图网络建立数据组织模型;对待测科技文献提取自身信息,并与基于数...
宋宇罗准辰武帅罗威谭玉珊胡明昊田昌海毛彬叶宇铭赵晋巍
文献传递
基于规则和TF-IDF的关键词自动抽取方法和装置
本发明涉及一种基于规则和TF‑IDF的关键词自动抽取方法和装置,包括以下步骤:对待处理文件的文件格式进行标准化转换,获得标准化文件;读取所述标准化文件的内容,基于预先构建的白名单对所读取的语进行性标注;基于性标注结...
冯帆谷凤波彭巧娟沈海伦黄子阳蔡晓波
基于深度学习的广播电视新闻关键词自动抽取方法
本发明公开了基于深度学习的广播电视新闻关键词自动抽取方法,包括步骤:S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中所述关键词数据集训练所构建的关...
温序铭朱婷婷杨瀚
文献传递
学术文本汇功能识别--在关键词自动抽取中的应用被引量:10
2021年
传统的关键词自动抽取常以候选的出现频次、位置等非语义信息构建特征,并未考虑关键词在学术文献中承担的特定语义角色,即汇功能。通过对现有数据统计,本文发现作者标注关键词中约有67.99%是研究问题或研究方法。因此,本文将关键词汇功能分为三类:“研究问题”“研究方法”和“其他”,在传统的频特征以及位置特征基础上,融合汇功能特征,使用计算机领域的学术文献基于分类和排序两种思想进行关键词抽取实验。实验结果表明,融合汇功能后,关键词抽取效果得到明显提升。相较于基准实验,二分类模型的准确率Acc和F值分别相对提升24.63%和25.19%,达到了0.840和0.666;排序模型的MAP、NDCG@5和P@5分别相对提升168.32%、189.50%和148.30%,提升至0.813、0.828和0.447,证明了学术文献汇功能特征在关键词自动抽取中具有重要作用。
姜艺黄永夏义堃李鹏程李鹏程
关键词:关键词抽取支持向量机
基于共现语言网络的文本关键词自动抽取方法和装置
本发明公开了基于共现语言网络的文本关键词自动抽取方法和装置,解决了有监督机器学习中需要大量人工标注数据的缺点,克服了语言分析方法泛化能力弱的不足,避免了统计方法易忽略频度低但很重要关键词的问题,本发明包括对网页进行预处理...
刘斌王维赵火军聂常赟
文献传递
语义相似度领域基于XGBOOST算法的关键词自动抽取方法被引量:1
2020年
关键词自动提取一直都是自然语言处理领域的一个基础问题与研究热点,随着文本数据的指数级增长与应用场景的不断扩展,如何高效且准确地自动提取关键词进一步得到了研究者的广泛关注。在语义相似度计算中,对两个文本进行关键词抽取的效果都对判断两个文本是否相似的结果有重大影响。论文提出了一种在语义相似度领域融合KL散度,TF-IDF,性,语长度等多种特征,基于XGBOOST算法的关键词自动抽取方法,实验结果表明,该方法与KL散度,TF-IDF以及基于传统机器学习算法的有监督方法相比,效果有显著提升。
王成柱魏银珍
关键词:自动抽取KL散度
一种基于数据挖掘的语料库关键词自动抽取算法
一种基于数据挖掘的语料库关键词自动抽取算法,包括以下步骤:获取待处理文本;对获取的文本进行分处理;对分集合中的语进行性标注和义标注;对分集合进行去处理;统计频和对的共现信息;设置频阈值,并判断汇集合...
刘家祥
文献传递
基于万有引力模型的关键词自动抽取方法被引量:1
2019年
为解决传统万有引力模型因语质量、间距离度量不足导致关键词效果较差的问题,分别从语质量表示和距离计算两方面对传统万有引力模型进行改进。提出基于频-文档分布熵的方法构建通用表,过滤候选后,综合位置、性、长特征改进TF-IDF方法,计算语外部重要性;构建共现网络图,通过计算语关联度衡量单内部重要性,融合内部重要性和外部重要性计算语质量并赋予图节点差异化初始权重;在语义距离的基础上引入依存句法距离,计算间引力作为边的权重,多次迭代后排序输出TopK个关键词。实验结果表明,该方法在3GPP技术规范和公开的SemEval2010、DUC2001数据集上较传统方法取得了更好的效果,验证了方法的有效性和通用性。
李欢吕学强李宝安徐丽萍
关键词:关键词抽取

相关作者

吕学强
作品数:396被引量:1,365H指数:17
供职机构:北京信息科技大学
研究主题:抽取方法 图像 搜索日志 中文 条件随机场
董志安
作品数:50被引量:66H指数:3
供职机构:北京信息科技大学
研究主题:句子 抽取方法 相似度计算 中文 正确率
余炳锐
作品数:2被引量:0H指数:0
供职机构:湖南涉外经济学院
研究主题:关键词自动抽取 网页 自动抽取 DON 面向WEB
黄永
作品数:21被引量:159H指数:9
供职机构:武汉大学
研究主题:文本挖掘 支持向量机 上下文 引文 文本分类
陆伟
作品数:191被引量:1,394H指数:20
供职机构:武汉大学
研究主题:信息检索 复合材料 学术文献 XML检索 查询