段建勇
- 作品数:51 被引量:107H指数:6
- 供职机构:北方工业大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字更多>>
- 基于位置嵌入和多级预测的中文嵌套命名实体识别
- 2023年
- 针对传统中文嵌套命名实体识别模型通常存在实体边界难以准确定位及中文字符与词汇之间边界模糊的问题,构建一种基于位置嵌入和多级结果边界预测的嵌套命名实体识别模型。在嵌入层,将嵌套实体位置信息与文本位置信息同时编码后生成绝对位置序列,通过关注中文文本中自带的位置信息,进一步挖掘嵌套实体与字符之间的关系,并且增强了嵌套实体与原始文本之间的联系。在编码层,利用排除最优路径的隐藏矩阵实现嵌套实体的初步识别。在解码层,计算实体边界的偏移量,重新确定实体边界,从而提高中文嵌套实体识别准确率。实验结果表明,在医疗和日常两个领域的数据集上,该模型的准确率、召回率、F1值相比于基线模型中的最优值分别提高了0.34、1.06、0.80和11.90、0.78、6.23个百分点,具有较好的识别性能。
- 段建勇朱奕霏王昊王昊李欣
- 关键词:条件随机场
- 一种中文拼写的检查方法
- 本发明公开了一种中文拼写的检查方法,包括以下步骤:建立中文拼写检查模型;将中文拼写错误检查设置为序列标注任务;添加动态词语和拼音对模型进行训练;向训练后的模型中分别输入字符、词语和拼音;通过序列标注任务对模型中输入的字符...
- 段建勇王昊张梅马东超王冰潘利建袁阳
- 文献传递
- 计算机类交叉学科与创新应用型人才培养模式探索与实践
- 2023年
- 交叉学科不仅是推动高校创新型人才创新能力培养的重要途径,而且是推动高校顺应创新型国家战略发展的必然选择。目前计算机类交叉学科和创新应用研究生培养教育模式存在思维固化、模式单一等问题,文章主要从推进计算机类学科交叉发展、构建交叉学科的创新实践平台、建立交叉性、综合化的创新教学内容和课程体系三个方面进行改革,有利于提高计算机类研究生的交叉学科与创新应用能力。
- 张永梅马礼段建勇吴爱燕
- 关键词:创新实践平台教学内容课程体系
- 基于网络日志的知识地图构建与应用被引量:3
- 2012年
- 通过分析网络日志获得查询聚类和会话单元数据集,在此基础上提出知识地图构造算法,对学习到的知识进行存储与管理,构建基于网络日志的知识地图,利用知识地图中的查询知识可以进行知识的筛选,将查询知识展示在用户面前,使用户快速地获得需要的查询知识。
- 张梅段建勇徐骥超
- 关键词:知识地图网络日志随机游走
- 人名属性知识挖掘及其在查询分类中的应用被引量:1
- 2013年
- 网络日志中存在大量的命名实体类查询,而其中人名查询占到近半的比例。提出运用网络查询日志和维基百科知识构建人名知识库,并应用于查询分类。通过抽取查询日志中的人名实体,并结合百科知识充实实体属性知识,形成包含属性知识的人名知识库。根据高质量的属性模板和统计分类方法对查询中的人名进行分类,在查询推荐中依据不同人物分类知识库进行分类推荐。实验结果表明该知识库对查询串中的人名实体能进行有效分类。
- 张梅段建勇徐骥超
- 关键词:查询分类信息检索
- 基于常用问题集的问答系统设计与实现被引量:4
- 2011年
- 针对图书出版领域的常用问题集研制自动问答系统,重点解决问句索引与检索问题。在问句索引中提出结合分词与词性标注、浅层语义分析等方法来索引问句;在问句检索中提出基于特征向量空间和语义类的方法来计算问句相似度。最后对该系统进行实现。
- 张梅段建勇
- 关键词:问答系统
- 维基百科中翻译对的模板挖掘方法研究被引量:2
- 2015年
- 双语翻译对在跨语言信息检索、机器翻译等领域有着重要的用途,尤其是专有名词、新词、俚语和术语等的翻译是影响其系统性能的关键因素,但是这些翻译对很难从现有的词典中获得。该文针对维基百科的领域覆盖率和结构特征,提出了一种从维基百科中自动获取高质量中英文翻译对的模板挖掘方法,不但能有效地挖掘出常见的模板,而且能够发现人工不容易察觉的复杂模板。主要方法包括三步:1)从语言工具栏中直接抽取翻译对,作为进一步挖掘的启发知识;2)在维基百科页面中采用PAT-Array结构挖掘中英翻译对模板;3)利用挖掘的模板在页面中自动挖掘其他中英文翻译对,并进行模板评估。实验结果表明,模板发现翻译对的正确率达90.4%。
- 段建勇闫启伟张梅胡熠
- 关键词:维基百科信息抽取
- 一种中文拼写的检查方法
- 本发明公开了一种中文拼写的检查方法,包括以下步骤:建立中文拼写检查模型;将中文拼写错误检查设置为序列标注任务;添加动态词语和拼音对模型进行训练;向训练后的模型中分别输入字符、词语和拼音;通过序列标注任务对模型中输入的字符...
- 段建勇王昊张梅马东超王冰潘利建袁阳
- 社区问答系统中“问答对”的质量评价被引量:8
- 2012年
- 随着互联网的发展,社区问答系统已经成为获取网络信息的一条重要途径,但社区问答系统也存在着"问答对"质量分布不均的问题.本文以百度知道作为研究对像,分析了百度知道中"问答对"的文本特征、统计信息、提问者和回答者之间的关系以及问题和答案的关联度.在分析这些特征的基础上,建立了一个面向社区问答的"问答对"质量分类器,该分类器可以从社区问答系统中自动抽取出高质量的"问答对".
- 刘高军马砚忠段建勇
- 知识驱动的事件双曲嵌入时序关系抽取方法研究
- 2023年
- 针对事件时间关系不对称的问题,采用将事件表示映射到双曲空间的方法,进行事件时序关系抽取。通过简单的运算,用预训练的词向量与外部知识构建事件的词嵌入表示。在公开发布的数据集上的实验结果表明,模型的F1值比基线模型普遍高2%,能够提升事件时序关系抽取的效果。
- 段建勇戴诗伟王昊王昊李欣
- 关键词:关系抽取