王挺
- 作品数:127 被引量:600H指数:14
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划教育部“新世纪优秀人才支持计划”更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>
- 基于元数据的数据整合平台被引量:8
- 2008年
- 针对数据资源整合的共性问题,提出了一种基于元数据、结合Web服务与本体技术的数据资源共享与整合平台的实现框架(MDDI)。重点讨论了基于JavaCC设计与实现的元数据自动抽取与转换工具,该工具把与各平台相关的元数据自动提取并转换为与平台无关的元数据,实现了基于元模型的元数据集成,为最终实现数据的共享和整合奠定了基础。
- 林毅宁洪王挺刘文杰
- 关键词:元数据数据整合抽取
- 半监督学习和主动学习相结合的浅层语义分析被引量:18
- 2008年
- 语义分析是基于内容的文本挖掘领域的重要技术和研究难点。有监督机器学习方法受限于标注语料的规模,在小规模标注样本中难以获取较高性能。本文面向浅层语义分析任务,采用一种新颖的半监督学习方法——直推式支持向量机,并结合其训练特点提出了基于主动学习的样本优化策略。实验表明,本文提出的浅层语义分析方法通过整合主动学习与半监督学习,在小规模标注样本环境中取得了良好的学习效果。
- 陈耀东王挺陈火旺
- 关键词:计算机应用中文信息处理浅层语义分析半监督学习直推式支持向量机
- 基于本体的生物信息集成研究
- 为了解决传统生物信息集成在语义处理中的困难,首先分析了现有生物学本体知识及其在生物信息集成中的作用,然后将传统的基于中介模式的数据集成方法和本体技术相结合,提出了分布式环境下基于本体的生物信息集成框架(MOBIB)并对其...
- 林毅宁洪王挺刘文杰
- 关键词:数据集成异构生物信息学
- 义类自动标注方法的研究被引量:7
- 2001年
- 句法分析不能满足汉语分析的需要 ,句法和语义相结合的分析方法适用于汉语分析。分析的基础要有一部语法语义词典。目前的机读词典多是语法词典 ,因而需要在语法词典中加入词的语义信息。《同义词词林》是一部较好的义类词典 ,但没有语法信息 ,可以《同义词词林》的分类体系对语法词典进行义类标注 ,得到语法语义词典。这一过程中有不一致的情况 ,特别地 ,对《同义词词林》中未收录的词就不能直接标注义类。本文采用《同义词词林》的分类体系 ,研究设计了一个汉语词自动义类标注算法 ,对北大《现代汉语语法信息词典》进行自动义类标注。实验结果较为满意 ,得到 91 %的准确率。
- 齐璇王挺陈火旺
- 关键词:自然语言处理
- 实体消歧中特征文本选取研究
- 2017年
- 在实体消歧问题中,特征文本是指输入实体消歧系统的用于表征实体指称和候选实体的文本,其质量对于实体消歧的性能有重要的影响。论文对特征文本的选取问题进行研究,针对网络文本的特点,综合考虑文本中的特殊字符、特征文本的位置、特征文本是否包含实体指称和特征文本的单句长度等因素,对文本进行筛选和处理,产生特征文本,以提高实体消歧的效果。论文在深度结构语义网(Deep Structured Semantic Model,DSSM)和向量相似度模型(Vector Similarity Model,VSM)两个实体排序模型上验证了特征文本选取方法的效果。结果显示特征文本筛选提高了DSSM上排序准确性,在P@3、P@5和P@10上分别有12.2%、12.3%和12.2%的提高。其中特殊字符处理对VSM有5.5%的提高。实验结果表明,对特征文本进行合理的筛选及清洗,有助于提高实体消岐中候选实体排序步骤的效果。
- 庞焜元唐晋韬李莎莎王挺
- 关键词:数据清洗
- 关键词提取中的分离模型和特征设计
- 关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语,而这部分关键词的提取是十分困难的问题。本文提出将关键词提取分为两个问题进行处理:关键单词提取和关...
- 罗准辰刘伍颖王挺
- 关键词:关键词提取语言学知识
- 文献传递
- 结合显式和隐式变分增强的多文档文献摘要方法及系统
- 本发明公开了一种结合显式和隐式变分增强的多文档文献摘要方法及系统,本发明方法包括:将输入文档利用神经话题模型捕获显式的语句话题表示,与初始的摘要语句或者输出的上一句摘要语句融合得到显式融合特征,再利用隐变量模型捕获得到隐...
- 李莎莎王攀成王挺刘甚灵唐晋韬李冬刘剑锋龙科含
- 面向蛋白质组学数据库的元数据提取与导入工具被引量:4
- 2009年
- 本文给出了一种用于提取和导入蛋白质组学元数据的工具,它是"基于元数据的蛋白质组学数据资源共享与整合平台"的一个重要组成部分。该工具被设计为元数据提取、元数据缓存、元数据导入三个模块,为实现从多种蛋白质组学数据源中提取元数据并将其导入元数据库提供了一种有效的解决方案。
- 刘文杰宁洪王挺林毅
- 关键词:元数据数据提取数据导入
- 关系抽取中远监督错误标注消除被引量:1
- 2018年
- 目前远监督方法被广泛应用于关系抽取任务。然而,远监督方法中存在大量错误标注现象,给远监督方法的学习效果带来了很大的影响。提出利用语义Jaccard度量关系短语与依存词间语义相似性的错误标注消除方法。消除错误标注后的训练数据用于训练模型,完成关系抽取。实验结果表明:该方法可以有效消除错误标注,提高关系抽取的性能。
- 汝承森唐晋韬谢松县李莎莎王挺
- 关键词:关系抽取语义相似性
- 基于本体概念结构的SVM多类分类方法及其在本体自动扩充中的应用
- <正>1 引言本体是哲学研究中发展出来的一个概念,指形成现象的根本实体。近十多年来,随着研究的日益深入,本体已经远远超过了哲学的范畴,在信息技术、知识工程等方面都有广泛的应用。尤其是本体
- 唐晋韬王挺
- 关键词:SVM
- 文献传递