秦兵
- 作品数:163 被引量:1,807H指数:19
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划哈尔滨工业大学校基金资助更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>
- 基于边权重的主题核心术语抽取
- 2015年
- 术语抽取是层次体系构建的首要子任务。目前的术语抽取研究主要集中在文本语料并且混合多个主题,存在知识获取的瓶颈和术语表述的模糊与歧义的问题。为了解决这些问题,本文提出一种基于边权重的主题核心术语抽取方法,从社会化标签中抽取主题核心术语。考虑到社会化标签丰富的语义关联特征,本文提出结合具体主题的局部共现和资源集合中所有主题的全局语义相似度的边权重。新颖的边权重将传统的随机游走方法分解成多个主题相关的随机游走,并针对每个具体主题排序相关的候选术语。排序靠前的术语被抽取作为主题核心术语。实验结果表明本文提出的方法显著优于前人的相关工作。
- 薛涵秦兵刘挺
- 关键词:术语抽取社会化标签
- 开放式实体及其类型识别方法
- 开放式实体及其类型识别方法,涉及一种实体及其类型识别方法,为了解决目前采用弱指导方法的实体识别方法存在一些缺陷的问题。它包括:一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;二:利用训练语料的有效特征训练条...
- 秦兵付瑞吉刘挺
- 文献传递
- 基于多特征融合的句子相似度计算
- 句子相似度计算在中文自然语言处理领域有着非常广泛的应用背景。本文通过对句子的深入分析,在分别对基于词特征,词义特征以及句法特征的句子相似度计算的基础上,提出一种基于多特征融合的句子相似度的计算方法。该方法通过对不同的特征...
- 赵妍妍秦兵刘挺张俐苏中
- 关键词:句子相似度计算多特征融合权值
- 文献传递
- 一种基于图卷积神经网络的生成式会议摘要方法
- 一种基于图卷积神经网络的生成式会议摘要方法,本发明涉及基于图卷积神经网络的生成式会议摘要方法。本发明的目的是为了解决现有方法仅仅使用句子和词语的序列结构建模会议文本,忽略了会议丰富的对话篇章结构信息的问题。过程为:一:得...
- 冯骁骋秦兵冯夏冲刘挺
- 文献传递
- 中文篇章级句间语义关系体系及标注被引量:24
- 2014年
- 篇章句间关系(Discourse Relation)是篇章级语义分析的重要内容,该文在英文篇章句间关系研究的基础上分析了中英文间的差异,总结了中文篇章级语义分析的特点,并在此基础上提出面向中文篇章句间关系的层次化语义关系体系,对句间关系类型进行详细描述。为了验证体系的合理性和完备性,我们在互联网新闻语料上进行了标注实践,分析了标注中遇到的难点并给出解决方案,为进一步的中文篇章级语义分析工作奠定基础。
- 张牧宇秦兵刘挺
- 音乐领域典型事件抽取方法研究被引量:24
- 2011年
- 事件抽取是信息抽取领域一个重要的研究方向。该文从音乐领域的事件抽取出发,通过领域事件词聚类的方法自动发现音乐领域具有代表性的事件,然后采用基于关键词与触发词相结合的过滤方法简化了事件类型的识别过程。在事件元素识别中,该文采用了基于最大熵的事件元素识别方法。在该文构建的语料库下,最终事件类型识别的平均F值达到82.82%,事件元素识别的平均F值达到75.79%。
- 丁效宋凡秦兵刘挺
- 关键词:事件抽取
- 一种基于多模型融合的抽取式文本摘要生成方法
- 一种基于多模型融合的抽取式文本摘要生成方法,本发明涉及抽取式文本摘要生成方法。本发明的目的是为了解决现有的单一的抽取式模型无法学习到摘要文本的全部重要信息,导致摘要抽取准确率及召回率低的问题。过程为:一、将每个句子的词向...
- 冯骁骋秦兵刘挺孙卓孔常青高建清
- 文献传递
- 多文档文摘评价标准的研究被引量:7
- 2007年
- 多文档自动文摘是自然语言处理领域的一个重要研究方向。但对于多文档文摘的评价方法仍然存在方法单一,缺乏统一标准的问题。针对这些问题,就多文档文摘信息覆盖度尝试性地提出一套标准。该标准将涉及以下几个重要参数:改进BLEU参数(改进召回率),与原文档有效词覆盖度,高频词覆盖度。实验证明利用该标准能准确反映出文摘系统在信息覆盖度方面的优劣,并且接近人工评价结果。
- 魏继增孙济洲秦兵
- 关键词:召回率
- 一种融入常识知识的生成式对话摘要方法
- 一种融入常识知识的生成式对话摘要方法,属于自然语言处理领域。本发明解决了现有生成式对话摘要方法未利用常识知识而导致生成的对话摘要不准确,抽象性低的问题。本发明方法包括:获取常识知识库ConceptNet与对话摘要数据集S...
- 冯骁骋冯夏冲秦兵刘挺
- 文献传递
- 基于自学习的汉语开放域命名实体边界识别
- 2014年
- 命名实体识别是自然语言处理领域的一个重要任务,为许多上层应用提供支持。本文主要研究汉语开放域命名实体边界的识别。由于目前该任务尚缺乏训练语料,而人工标注语料的代价又太大,本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。实验结果表明自学习的方法可以提高边界识别的准确率和召回率。
- 付瑞吉秦兵刘挺
- 关键词:自学习