石晶
- 作品数:15 被引量:186H指数:6
- 供职机构:长春工业大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划博士科研启动基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 文本分割综述被引量:6
- 2006年
- 文本分割在信息提取、文摘生成、语篇解析及其他多个领域有着极为重要的应用。文本分割的对象包括静态书面文本、语音文本以及动态文本等;分割的粒度因分割的目的不同而有所区别;分割的准确性不仅需要直接评测,更需要间接评测。在大量文献的基础上,对目前常用的分割方法及评测手段进行了全面的归纳和总结,分析了文本分割技术的研究现状,指出尚存在的问题并展望研究前景。
- 石晶
- 关键词:文本分割
- 基于组块及记忆的词性自动标注被引量:2
- 2006年
- 基于组块及记忆的模型(BMM)采用与传统方法明显不同的标注思路,以汉语中的整句为处理单元,从组块出发,立足于单个词汇,分析更为丰富的上下文语境知识,并借助知网词典记忆词性集合,同时采用渐增式的机械学习方式获取参数值。对于棘手的稀疏数据问题只简单地设置平伏常数加以平滑,最后利用少量人工规则修正标注结果。实验表明,该模型的封闭式测试准确率将近99%,开放式测试准确率为95%以上。
- 石晶戴国忠
- 关键词:人工智能词性自动标注
- 三种主题分割方法的对比研究被引量:3
- 2009年
- 文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用。基于PLSA及LDA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系,而基于小世界模型的分割则依据小世界模型的短路径、高聚集性的特点实现片段边界的识别。从模型的特点、分割策略以及实验结果等角度对基于三种模型的分割进行对比。分析表明,基于LDA模型的分割比基于PLSA模型的分割具有更大的稳定性,且分割效果更好。基于小世界模型的分割策略更适合小世界模型特性明显的文本。
- 石晶李万龙
- 关键词:文本分割LDA模型小世界模型
- 基于知网的文本推理被引量:9
- 2006年
- 文本推理在自然语言处理的应用中占有极为重要的位置,本文介绍了基于知网的一种推理方法,该方法以语义网络的形式表示知网中的知识,利用“标记传递”实现推理。其特点是引入构造-融合模型的思想,动态生成知识结构,有引导地在文本词汇间建立推理路径。利用16种推理类的实例对其进行测试,结果表明在有足够上下文的条件下,该方法能够得出较为理想的推理,并且代价不高。
- 石晶戴国忠
- 关键词:计算机应用中文信息处理语义网
- 基于PLSA模型的文本分割被引量:29
- 2007年
- 文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用·基于PLSA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系·实验以汉语的整句作为基本块,尝试了多种相似性度量手段及边界估计策略,同时考虑相邻句重复的未登录词对相似值的影响,其最佳结果表明,片段边界的识别错误率为6·06%,远远低于其他同类算法·
- 石晶戴国忠
- 关键词:文本分割概率潜在语义分析
- 基于LDA模型的主题分析被引量:37
- 2009年
- 在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片段边界.依据词汇的香农信息提取片段主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵.实验表明,文本分析的结果明显好于其他方法,可以为下一步文本推理的工作提供有价值的预处理.
- 石晶范猛李万龙
- 关键词:主题分析LDA模型文本分割GIBBS抽样
- 基于MDL和LSC的语义优选方法
- 2011年
- 为实现谓语动词对论元的自动选择,提出基于最小描述长度(MDL)和潜在语义聚类(LSC)的语义优选方法。基于MDL原则计算与动词搭配的名词的δsc值,根据LSC模型的EM算法求取动、名词的搭配概率P(v,n),并针对每一对动、名词计算δsc和P(v,n)之和,将其作为衡量两者语义关联度的标准。实验结果表明,该方法的F1值达到85.26%,优于单独使用MDL或LSC方法。
- 李东明张丽娟赵伟石晶
- 关键词:最小描述长度无指导学习
- 基于小世界模型的中文文本主题分析被引量:10
- 2007年
- 本文旨在研究如何基于小世界模型进行文本分割,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来。为此首先证明由文本形成的词汇共现图呈现短路径,高聚集度的特性,说明小世界结构存在于文本中;然后依据小世界结构将词汇共现图划分为“簇”,通过计算“簇”在文本中所占的密度比重识别片段边界,使“簇”与片段对应起来;最后利用短路径,高聚集度的特性提取图“簇”的主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵。虽然国际上已有很多关于小世界结构及基于其上的应用研究,但利用小世界特性进行主题分析还是一个崭新的课题。实验表明,本文所给方法的结果明显好于其他方法,说明可以为下一步文本推理的工作提供有价值的预处理。
- 石晶胡明戴国忠
- 关键词:中文信息处理主题分析小世界模型文本分割
- 中文文本的主题分析技术研究
- 文本的主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换,觉察主题间的关系等,它是很多信息处理领域,比如文本理解、语言建模、信息的检索与抽取、文本分类等应用的基础与核心部分。其工作大多...
- 石晶
- 关键词:中文文本
- 基于LDA模型的主题词抽取方法被引量:47
- 2010年
- 以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。
- 石晶李万龙
- 关键词:LDA模型GIBBS抽样