江苏省高校自然科学研究项目(08KJA520002)
- 作品数:42 被引量:241H指数:8
- 相关作者:朱巧明李培峰周国栋孔芳王红玲更多>>
- 相关机构:苏州大学江苏省计算机信息处理技术重点实验室信息技术有限公司更多>>
- 发文基金:江苏省高校自然科学研究项目国家自然科学基金江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于事件框架的主题事件融合研究被引量:6
- 2009年
- 针对事件抽取获得的单个元事件无法完整描述主题事件的特点,提出了一种主题事件的融合方法,通过该方法将与同一主题相关的所有元事件整合在一起,以层次化的形式表示。首先定义了一种事件融合框架TEFF(topic event fusion framework)。该框架根据各类元事件在主题事件中的作用,将主题事件以层次化的形式表示。同时给出元事件和主题的相关度计算方法,通过该算法来评价元事件和主题的相关度。在TEFF的指导下,通过相关度计算,实现主题事件的融合。在以2008年起的金融危机为主题的实验中,取得了F值为77.1%的实验结果,这表明该方法能有效地对主题事件进行融合。
- 许荣华吴刚李培峰朱巧明
- 关键词:事件信息抽取
- 主题信息的中文多文档自动文摘系统被引量:5
- 2012年
- 多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。
- 王红玲张明慧周国栋
- 关键词:中文自动文摘主题模型多文档
- 用于中文缺省识别研究的机器学习方法被引量:1
- 2012年
- 实现一个基于机器学习的中文缺省项识别系统,对语料库进行预处理,选取多个特征及其组合,通过支持向量模型(SVM)构建的缺省识别模型进行中文缺省识别。研究系统在不同句法分析树上的性能。实验结果证明,该识别系统在标准的句法分析树上F值能达到84.01%,在自动句法树上能达到68.22%。
- 秦凯伟孔芳李培峰朱巧明徐生芹
- 关键词:自然语言处理语料
- 一种改进的TFIDF网页关键词提取方法被引量:32
- 2011年
- 传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。
- 李静月李培峰朱巧明
- 关键词:文本结构关键词抽取TFIDF
- 一种基于改进的K-means算法的人名消歧系统的设计与实现被引量:5
- 2010年
- 人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。人名消歧很长时间一直是一个具有挑战性的问题,关注网页里的人名消歧的问题。因为经典的K-means算法如果选择了一个差的随机初始聚类中心,算法会遇到局部收敛的问题,所以文章提出一种基于最大最小原则的改进的K-means算法来进行人名消歧。同时使用了WePS的训练数据作为实验的语料。实验结果表明,改进的方法比层次聚类方法有着更好的性能。
- 杨欣欣李培峰朱巧明王英帅
- 关键词:人名消歧聚类
- 一个基于分层的网页文本过滤系统
- 2010年
- 设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征。实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%。
- 周聚李培峰朱巧明
- 关键词:文本过滤
- 基于IPQueue的即时通信协议还原系统的设计与实现被引量:3
- 2012年
- 通过对多种即时通信协议文本传输协议的分析,在Linux Netfilter框架下,利用IPQueue技术,构建了即时通信协议分析与监控系统。提出一个通用协议解析处理模型,分析框架采用多线程、多缓冲的设计思想。实验证明该模型具有良好的实时性及扩展性,可以同时对多个即时通信协议(QQ、MSN、Fetion等)的文本传输协议进行解析。
- 杨化志许兰李培峰朱巧明
- 关键词:即时通信实时监控
- 语料对中文名词短语指代消解影响研究被引量:1
- 2013年
- 指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005,OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。
- 高俊伟孔芳朱巧明李培峰
- 关键词:指代消解名词短语聚类语料
- 基于合一句法和实体语义树的中文语义关系抽取被引量:19
- 2010年
- 该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。
- 虞欢欢钱龙华周国栋朱巧明
- 基于树核函数的“it”待消解项识别研究被引量:3
- 2010年
- 该文在基于特征的英文代词指代消解平台上,使用复合核函数,研究指代消解中待消解项"it"的识别问题。围绕"it"是否是待消解项,该文采取有效策略获得"it"句法结构信息与平面特征信息,并将它们结合起来生成"it"待消解项分类器。在测试分类器性能的同时,将其运用到代词指代消解中以检验它对指代消解的作用。最后在ACE2003基准语料上实验表明采用复合核生成的分类器具有较高的准确率,并能显著提高代词指代消解性能。
- 陈九昌孔芳朱巧明周国栋
- 关键词:复合核指代消解