周俊生 作品数:50 被引量:364 H指数:9 供职机构: 南京师范大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 江苏省高校自然科学研究项目 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 语言文字 电子电信 更多>>
基于神经网络的复句判定及其关系识别研究 被引量:1 2021年 复句是自然语言的基本单位之一,复句的判定及其语义关系的识别,对于句法解析、篇章理解等都有着非常重要的作用。基于神经网络模型识别自然语料中的复句,判断其复句关系,构造复句判定和复句关系识别联合模型,以最大程度地减少误差传递。在复句判定任务中通过Bi-LSTM获得上下文语义信息,采用注意力机制捕获句内跨距离搭配信息,利用CNN捕获句子局部信息。在复句关系识别任务中,使用Bert增强句子的语义表示,运用Tree-LSTM对句法结构和成分标记进行建模。在CAMR中文语料上的实验结果表明,基于注意力机制的复句判定模型F1值达到91.7%,基于Tree-LSTM的复句关系识别模型F1值达到69.15%。在联合模型中,2项任务的F1值分别达到92.15%和66.25%,说明联合学习能够使不同任务获得更多特征,从而提高模型性能。 贾旭楠 魏庭新 曲维光 曲维光 顾彦慧关键词:神经网络 语义建模 基于XML技术的B2B应用集成研究 该文首先讨论了两种传统的B2B应用集成实现技术:电子数据交换方式和分布式对象中间件方式,它们在实现B2B应用集成时均存在难以克服的问题和缺点.该文主要研究如何应用XML技术来解决现有的B2B应用集成技术的问题,详细而深入... 周俊生关键词:可扩展置标语言 电子数据交换 WEB接口 远程过程调用 集成服务器 文献传递 基于转移神经网络的中文AMR解析 被引量:4 2019年 抽象语义表示(abstract meaning representation,AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图。目前,中文AMR研究仍然处于起步阶段。该文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了试验性研究。首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络基线系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的表示;最后,模型中应用序列化标注的模型实现AMR概念识别,优化了AMR概念识别效果。实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于基线系统。 吴泰中 顾敏 周俊生 曲维光 李斌 顾彦慧一种结合BaseNP识别的汉语概率句法分析改进模型 基本短语,尤其是基本名词短语(BaseNP)一直是句法分析中需要特殊处理的一种结构。准确地识别基本短语不仅有助于降低句法分析的复杂度,提高效率:而且还能起到消歧的作用,从而改善句法分析的结果。本文在 Collins 概率... 何亮 戴新宇 周俊生 陈家骏关键词:基本名词短语 汉语句法分析 文献传递 基于统计学习的中文信息抽取技术研究 Web的发展使得电子文档数目巨大且迅猛增长,大量的信息存在于非结构化的自然语言文档中,为了能高效地利用存在于自然语言文本中的信息,信息抽取技术提供了一条有效的途径,利用它可以将非结构的文本转化为结构化的信息,以便于信息的... 周俊生关键词:自然语言处理 中文命名实体 基于CRF和转换错误驱动学习的浅层句法分析 被引量:1 2011年 本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法。该方法应用于宾州大学中文树库,取得不错的组块识别效果。在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正。实验结果表明,与单独使用CRF结果相比,组块识别的精确率、召回率以及F值均得到了提高。 张芬 曲维光 赵红艳 周俊生关键词:浅层句法分析 CRF 自然语言信息抽取中的机器学习方法研究 被引量:21 2005年 信息抽取是一种用于处理各种类型文本文档的非常有效的方法,然而建立一个文本信息抽取系统却是非常困难和耗费时间的。近年来,基于统计的机器学习方法在信息抽取领域的研究受到了广泛关注。本文深入探讨了当前自然语言信息抽取领域广泛采用的几种非常有效的统计学习方法,比较分析了各种方法的统计推断过程和学习算法及其优缺点,讨论了各种统计学习方法所面临的训练语料匮乏问题的主要解决方法,并指出了今后进一步研究的方向。 周俊生 戴新宇 尹存燕 陈家骏关键词:自然语言 信息抽取 机器学习方法 统计学习 基于层叠条件随机场模型的中文机构名自动识别 被引量:137 2006年 中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法. 周俊生 戴新宇 尹存燕 陈家骏关键词:中文机构名识别 条件随机场 多策略同义词获取方法研究 被引量:3 2015年 提出一种多策略同义词获取方法,一方面利用《同义词词林》、《中文概念词典》等现有语义词典中蕴含的同义关系获取同义词,另一方面根据百度百科信息框(Bdbk)中特征词和汉典网(Zdic)中HTML标记获取同义词,同时采用DIPRE自动获取模式的方法,从百度百科文本中发现置信度较高的模式和同义关系。实验结果表明,所提方法在NLP&CC 2012同义词评测数据集中取得较好结果。利用该方法,以《现代汉语语法信息词典》名词部分为目标,构建一部同义词词典并进行人工校对,为《现代汉语语法信息词典》构建较为完善的语义关系体系做出尝试。 宋文杰 顾彦慧 周俊生 孙玉杰 严杰 曲维光关键词:同义词 关系抽取 网络百科 异构IP网络的物理拓扑自动发现算法的研究与实现 被引量:5 2003年 发现网络拓扑信息是实现许多关键网络管理任务的先决条件 ,目前大多数的网络管理工具仅提供逻辑 (即IP层 )的拓扑发现功能 ,而要发现物理网络拓扑却是个非常困难的任务。本文提出了一个实用的异构网络的物理拓扑发现算法 ,算法的运行结果显示 ,该算法能高效、准确地生成异构网络的物理拓扑图。 周俊生关键词:异构IP网络 物理拓扑 自动发现算法 网络管理 交换机 网桥