江苏省高校自然科学研究项目(11KJA520003) 作品数:19 被引量:53 H指数:5 相关作者: 朱巧明 钱龙华 洪宇 姚建民 周国栋 更多>> 相关机构: 苏州大学 江西师范大学 更多>> 发文基金: 江苏省高校自然科学研究项目 国家自然科学基金 江苏省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于单文本指代消解的人物家庭网络构建研究 2014年 人物家庭网络是社会关系网络中的一个重要组成部分,因此,如何高效准确地提取出人物的家庭网络具有重要研究意义。该文在前人工作的基础上提出一种基于单文本指代消解技术的人物家庭关系抽取方法,以此扩大人物家庭关系抽取的范围,进而提高人物家庭网络的召回性能。该文还提出了一种基于人物虚拟边的家庭网络评估指标,用于更合理地评价构建出的人物家庭网络的性能。在大规模中文语料Gigaword上的实验表明,该方法可以较为准确地抽取出人物的家庭关系,进而提高人物家庭网络的召回性能,从而为社会网络分析提供基础数据。 顾静航 朱苏阳 钱龙华 朱巧明关键词:社会关系网络 家庭网络 一个面向信息抽取的中英文平行语料库 被引量:2 2015年 除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。 惠浩添 李云建 钱龙华 周国栋关键词:语义关系 平行语料库 一个中文实体链接语料库的建设 被引量:7 2015年 鉴于现有中文实体链接基准语料库的缺乏,在ACE2005中文语料库和中文维基百科的基础上,通过自动构造和人工标注的方法,构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同,构造的中文实体链接语料库是基于实体而非单个实体指称(Mention)。中文实体链接语料库的构建,将为中文实体链接研究提供一个可用的基准平台。 舒佳根 惠浩添 钱龙华 朱巧明关键词:中文 语料库 基于自监督学习的维基百科家庭关系抽取 被引量:1 2015年 传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息——家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。 朱苏阳 惠浩添 钱龙华 张民关键词:维基百科 半结构化信息 关系抽取 基于跨场景推理的事件关系检测方法 被引量:1 2014年 事件关系检测是一项面向事件之间逻辑关系的自然语言处理技术。事件关系识别的核心任务是以事件为基本语义单元,通过分析事件的篇章结构信息及语义特征,实现事件逻辑关系的深层检测。该文首次建立一套事件关系检测的任务和研究体系,包括任务定义、关系体系划分、语料采集与标注、评价方法等。同时,该文提出了一种跨场景推理的事件关系检测方法,该方法认为,具有相同事件场景的"事件对",往往具有相同的事件关系类型。该文提出的基于跨场景推理的事件关系检测方法在针对四大类事件关系类型的检测精确率为54.21%。 杨雪蓉 洪宇 陈亚东 王潇斌 姚建民 朱巧明关键词:框架语义 基于HITS算法的双语句对挖掘优化方法 被引量:5 2017年 识别和定位特定领域双语网站,是基于Web自动构建特定领域双语语料库的关键。然而,特定领域双语网站之间的句对质量往往差异较大。相对于原有基于句对文本特征识别过滤质量较差句对的方法。该文从句对的来源(即特定领域双语网站)出发,依据领域权威性高的网站往往蕴含高质量平行句对这一假设,提出一种基于HITS算法的双语句对挖掘优化方法。该方法通过网站之间的链接信息建立有向图模型,利用HITS算法度量网站的权威性,在此基础上,仅从权威性高的网站中抽取双语句对,用于训练特定领域机器翻译系统。该文以教育领域为目标,验证"领域权威性高的网站蕴含高质量句对"假设的可行性。实验结果表明,利用该文所提方法挖掘双语句对训练的翻译系统,相比于基准系统,其平均性能提升0.44个BLEU值。此外,针对HITS算法存在的"主题偏离"问题,该文提出基于GHITS的改进算法。结果显示,基于GHITS算法改进的机器翻译系统,其性能继续提升0.40个BLEU值。 刘昊 洪宇 姚亮 刘乐 姚建民 周国栋关键词:统计机器翻译 权威性 基于简介和评论的标签推荐方法研究 被引量:7 2015年 Web 2.0时代,社会标签是信息资源组织的一种重要方式。标签推荐能够有效的帮助用户收集、定位、查找和共享在线资源。以往的标签推荐算法只是基于一种文本信息,比如基于电影的简介文本来进行标签推荐。但是实际上电影往往存在多种文本信息,比如同时存在摘要信息和评论信息,不同类型的信息能够反映电影的不同方面的属性,因此为了提高电影标签推荐的准确率和有效性,我们同时根据电影的简介和短评进行电影标签自动推荐,并使用多种方法融合基于不同类型文本的标签推荐的结果,实验证明,使用不同类型信息进行标签推荐能够比单一使用一种文本信息进行标签推荐有很大的提升。 褚晓敏 王中卿 朱巧明 周国栋关键词:自然语言处理 社会标签 社会关系网络 分类器融合 基于支持向量机分类和语义信息的中文跨文本指代消解 被引量:5 2013年 跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。 赵知纬 顾静航 胡亚楠 钱龙华 周国栋关键词:支持向量机分类器 语义信息 否定与不确定信息抽取研究综述 被引量:1 2015年 否定与不确定表达在自然语言中广泛存在,正确识别此类信息并将其与准确信息分开处理,在信息抽取、情感分析、文本挖掘等自然语言处理任务中具有重要研究价值。自从2008年BioScope语料库发布以来,针对否定与不确定信息抽取研究举办了多次大规模评测会议和学术论坛,为采集语料、明确任务及性能评测等提供了交流平台,否定与不确定信息抽取逐渐成为自然语言处理领域的研究热点。该文简要介绍了否定与不确定信息抽取的研究背景、任务定义、相关语料等,并通过回顾和分析该领域的研究现状,展望未来的发展趋势。 邹博伟 周国栋 朱巧明关键词:不确定信息 自然语言处理 衔接性驱动的篇章一致性建模研究 被引量:1 2014年 该文系统地探索了衔接性理论对篇章一致性建模的作用。不同于目前有监督的基于实体和篇章关系网格的模型,该文提出的无监督模型揭示了系统功能语法中主位—述位结构理论对于篇章一致性建模的重要性,同时显示了基于主位和指代消解两种过滤机制对于篇章一致性建模的适用性。在三种不同文体的国际基准语料上进行的句子排序和文本摘要一致性检测任务实验表明主位—述位结构和指代消解信息能使篇章一致性检测准确率得到显著提升。 徐凡 朱巧明 周国栋 王明文关键词:指代消解