江苏省自然科学基金(BK2011282)
- 作品数:21 被引量:92H指数:6
- 相关作者:朱巧明洪宇姚建民李培峰周国栋更多>>
- 相关机构:苏州大学江苏省计算机信息处理技术重点实验室江西师范大学更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于语义依存线索的事件关系识别方法研究被引量:15
- 2013年
- 以事件为基本语义单元,基于事件的篇章结构信息及语义特征,通过分析事件的语义依存关系及其在演化过程中的语义依存规律,提出基于语义依存线索的事件关系识别方法,实现事件语义关系的浅层检测:判定事件之间是否存在语义关系。实验结果显示,相比于传统的基于语义相似度的识别方法,新提出的基于事件语义依存线索的事件关系识别方法获得了5%的性能提升。
- 马彬洪宇杨雪蓉姚建民朱巧明
- 关键词:依存分析
- 衔接性驱动的篇章一致性建模研究被引量:1
- 2014年
- 该文系统地探索了衔接性理论对篇章一致性建模的作用。不同于目前有监督的基于实体和篇章关系网格的模型,该文提出的无监督模型揭示了系统功能语法中主位—述位结构理论对于篇章一致性建模的重要性,同时显示了基于主位和指代消解两种过滤机制对于篇章一致性建模的适用性。在三种不同文体的国际基准语料上进行的句子排序和文本摘要一致性检测任务实验表明主位—述位结构和指代消解信息能使篇章一致性检测准确率得到显著提升。
- 徐凡朱巧明周国栋王明文
- 关键词:指代消解
- 基于树核的隐式篇章关系识别被引量:16
- 2013年
- 隐式篇章关系识别是篇章结构分析中最具有挑战性的任务之一.传统的方法注重篇章中的概念和意义特征,导致系统的性能不高.系统地探索了篇章中的浅层语义信息和以态度韵为导向的句子级情感等平面特征的有效性,同时提出了一种简单而有效的树核方法,最后采用复合核方法加以集成.在Penn Discourse Treebank(PDTB)2.0语料库上的实验结果表明,引入浅层语义和情感等信息后,准确率得到显著提升.
- 徐凡朱巧明周国栋
- 关键词:篇章篇章结构分析树核复合核
- 一种动态和自适应公交到站时间预测方法被引量:7
- 2015年
- 公交到站时间预测是实现智能化公交信息服务的基础,可靠地预测公交到站时间有利于提高公共交通的服务水平,以吸引更多的城市居民选择公共交通。以某城市公交系统海量的历史数据为基础,建立了基于SVM的集合了静态和动态数据的公交预测模型,该模型引入上游路段速度、下游路段最新速度、下游路段最新花时、时间段和路况拥挤程度等动态信息作为模型特征。在此基础上,根据大量公交到站时间历史数据的波动性,提出了一个基于波动性的自适应预测模型。实验结果表明,自适应预测模型优于现有模型,提高了预测的精确度和效率。
- 谢玲李培峰朱巧明
- 关键词:自适应模型支持向量机
- 基于评价对象类别的跨领域情感分类方法研究被引量:3
- 2013年
- 情感分类任务具有领域相关性,即使用某一个领域的标注样本训练出的分类模型在对其他领域样本进行分类时性能表现往往会非常差。情感分类的跨领域学习旨在减少跨领域的性能损失。提出一种基于评价对象类别的跨领域学习方法。首先,将评价对象分为4大类:整体、硬件、软件和服务;然后,人工标注源领域中属于以上4类评价对象的句子,并构建评价对象类别分类器;最后,将不同的评价对象类别当作不同的视图,进而使用协同学习(Co-trai-ning)进行跨领域情感分类。实验结果表明,提出的方法有效地改进了跨领域学习性能。
- 张慧李寿山李培峰朱巧明
- 关键词:最大熵
- 一个半监督的中文事件抽取方法被引量:4
- 2016年
- 半监督或无监督的事件抽取方法在目前依旧是一个具有挑战性的课题。针对中文本身在表述中存在的固有特点,该文提出一种基于双视图的事件抽取自举学习方法。该方法以少量种子为基础,从文档相关度与语义相似度两个视图出发,进行交互过滤筛选,不断抽取新的有效事件模板,为事件抽取服务。在ACE2005中文语料上的测试表明,和现有方法相比,该方法可以有效地提高中文信息事件抽取系统的性能。
- 徐霞李培峰朱巧明
- 关键词:事件抽取自举语义相似度
- 半监督中文事件抽取中的模板过滤和转换方法被引量:1
- 2015年
- 事件模板是指导事件抽取工作的依据,半监督方法下模板的准确性显得尤为重要。目前,基于双视图的"触发词-论元"模板的中文信息事件抽取系统不能有效地解决触发词一词多义的现象和模板稀疏现象。提出了一种借助论元进行触发词语义消歧的方法,并利用该方法进行模板过滤以消除无效模板的影响。另外,针对几种特殊的中文句型,根据句法结构提出了模板转换规则,从而提高了模板的适用性。在ACE2005中文语料上的测试表明,该方法可有效地提高半监督中文信息事件抽取系统的性能。
- 徐霞李培峰朱巧明
- 关键词:事件抽取
- 基于功能连接词的隐式篇章关系推理被引量:1
- 2014年
- 功能连接词是一种直接表述篇章单元内部语义关系、结构特性和语境发展趋势的词特征。借助功能连接词的这一优势,该文提出一种基于功能连接词的隐式篇章关系推理方法。该方法首先挖掘词级与短语级的功能连接词,划分功能连接词的篇章关系类别;其次,为每个功能连接词构建概念模型,借以描述由功能连接词连接的论元属性,并建立论元概念与篇章关系的映射体系;最后,利用统计策略识别待测论元的概念模型,并借助"概念—关系"映射体系,实现隐式篇章语义关系推理。实验结果显示,该文基于功能连接词构建概念模型的推理方法,相较于现有的基于监督学习的分类方法,系统性能获得显著提升。
- 车婷婷洪宇周小佩严为绒姚建民朱巧明
- 基于跨场景推理的事件关系检测方法被引量:1
- 2014年
- 事件关系检测是一项面向事件之间逻辑关系的自然语言处理技术。事件关系识别的核心任务是以事件为基本语义单元,通过分析事件的篇章结构信息及语义特征,实现事件逻辑关系的深层检测。该文首次建立一套事件关系检测的任务和研究体系,包括任务定义、关系体系划分、语料采集与标注、评价方法等。同时,该文提出了一种跨场景推理的事件关系检测方法,该方法认为,具有相同事件场景的"事件对",往往具有相同的事件关系类型。该文提出的基于跨场景推理的事件关系检测方法在针对四大类事件关系类型的检测精确率为54.21%。
- 杨雪蓉洪宇陈亚东王潇斌姚建民朱巧明
- 关键词:框架语义
- 基于HITS算法的双语句对挖掘优化方法被引量:5
- 2017年
- 识别和定位特定领域双语网站,是基于Web自动构建特定领域双语语料库的关键。然而,特定领域双语网站之间的句对质量往往差异较大。相对于原有基于句对文本特征识别过滤质量较差句对的方法。该文从句对的来源(即特定领域双语网站)出发,依据领域权威性高的网站往往蕴含高质量平行句对这一假设,提出一种基于HITS算法的双语句对挖掘优化方法。该方法通过网站之间的链接信息建立有向图模型,利用HITS算法度量网站的权威性,在此基础上,仅从权威性高的网站中抽取双语句对,用于训练特定领域机器翻译系统。该文以教育领域为目标,验证"领域权威性高的网站蕴含高质量句对"假设的可行性。实验结果表明,利用该文所提方法挖掘双语句对训练的翻译系统,相比于基准系统,其平均性能提升0.44个BLEU值。此外,针对HITS算法存在的"主题偏离"问题,该文提出基于GHITS的改进算法。结果显示,基于GHITS算法改进的机器翻译系统,其性能继续提升0.40个BLEU值。
- 刘昊洪宇姚亮刘乐姚建民周国栋
- 关键词:统计机器翻译权威性