张志昌
- 作品数:21 被引量:64H指数:5
- 供职机构:西北师范大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划甘肃省中青年科技研究基金更多>>
- 相关领域:自动化与计算机技术环境科学与工程理学语言文字更多>>
- 基于话题和修辞识别的阅读理解why型问题回答被引量:9
- 2011年
- 针对阅读理解问答中的why型问题,提出基于问题话题和话题间因果修辞关系识别的答案句抽取方法.抽取时利用机器学习方法,选择可识别出对应问题话题的句子特征、问题话题与句子上下文之间因果关系特征,对篇章内的句子按照成为答案句的概率进行排序.对应问题话题的句子识别利用基于idf和语义角色的相似度;因果修辞关系的识别利用线索短语、特定语义角色、从文档集中挖掘的词间蕴含的因果关系概率信息、句子上下文的位置与表达形式.Remedia语料上的实验结果表明,该方法明显提高了why型问题回答的性能.
- 张志昌张宇刘挺李生
- 关键词:答案抽取
- 融合句法结构变换与词汇语义特征的文本蕴涵识别被引量:5
- 2015年
- 传统文本蕴涵识别方法仅停留在词汇级的识别,无法涉及句法、语义等方面,造成识别结果的F值较低。针对该问题,提出一种将句法结构的变换和传统词汇语义特征结合的中文文本蕴涵识别方法。对文本进行基于句法分析树变换的预处理,将句法分析中适用于文本蕴涵识别的特征加入到相关的统计和词汇语义特征中,使用统计机器学习的方法对由文本片段T和假设的文本片段H组成的文本对进行蕴涵关系分类,并经过语义规则的修正处理得到最终的识别结果。在NTCIR RITE3上的评测结果表明,与III&CYUT,Yamraj等相比,该方法能获得较高的F值。
- 张志昌姚东任刘霞陈松毅鲁小勇
- 开放域阅读理解关键技术研究
- 自动的阅读理解技术一直是人工智能领域的研究方向之一。受1999年开始的TREC问答技术系列评测的推动,该研究也成为了自然语言处理领域新的研究热点。一方面,阅读理解技术研究可以检测和评估底层各项自然语言处理技术结合之后的整...
- 张志昌
- 关键词:人工智能自然语言处理答案抽取
- 文献传递
- 开放域问答技术研究进展被引量:18
- 2009年
- 问答技术是信息检索和自然语言理解中的研究热点.本文对开放域问答技术在近年来的研究进展进行了总结.针对不同类型的问题,比较了问答系统中问题分析、文档和句段检索、答案抽取各个部分不同实现方法的特点,讨论了这些技术中存在的不足.最后,对问答技术未来的研究趋势进行了分析与展望.
- 张志昌张宇刘挺李生
- 关键词:答案抽取
- 基于线索词识别和训练集扩展的中文问题分类被引量:6
- 2009年
- 针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了分类性能。
- 张志昌张宇刘挺李生
- 结合语境与布朗聚类特征的上下位关系验证被引量:1
- 2015年
- 对海量文本语料进行上下位语义关系自动抽取是自然语言处理的重要内容,利用简单模式匹配方法抽取得到候选上下位关系后,对其进行验证过滤是难点问题。为此,分别通过对词汇语境相似度与布朗聚类相似度计算,提出一种结合语境相似度和布朗聚类相似度特征对候选下位词集合进行聚类的上下位关系验证方法。通过对少量已标注训练语料的语境相似度和布朗聚类相似度进行计算,得到验证模型和2种相似度的结合权重系数。该方法无需借助现有的词汇关系词典和知识库,可对上下位关系抽取结果进行有效过滤。在CCF NLP&2012词汇语义关系评测语料上进行实验,结果表明,与模式匹配和上下文比较等方法相比,该方法可使F值指标得到明显提升。
- 张志昌陈松毅刘鑫马慧芳
- 关键词:上下位关系
- 面向经济领域的同义词获取融合方法研究被引量:1
- 2014年
- 随着互联网新技术的不断发展和信息的爆炸式增长,自然语言处理和信息检索等技术在信息的处理和获取方面呈现愈加重要的作用,而同义词又在各种自然语言处理和信息检索应用中有着重要的研究意义和应用价值。基于此,提出一种面向经济领域的字面相似和PageRank链接融合的同义词方法,可从海量语料库中获取大量的同义词集合。
- 马海昌张志昌赵学锋刘鑫孔波
- 关键词:同义词
- 基于词项关联关系与归一化割加权的微博用户兴趣模型
- 2015年
- 提出一种基于词项关联关系与归一化割加权非负矩阵分解的微博用户兴趣模型构建方法。该方法首先基于词分布上下文语义相关性来建立词项关联关系矩阵刻画词项间相似度,然后应用归一化割加权非负矩阵分解算法获取用户—主题矩阵,产生用户感兴趣的微博主题聚类结果。实验表明,此方法能有效地进行微博主题聚类,并支持微博用户兴趣模型构建。
- 姚伟马慧芳孙曰昕张志昌
- 关键词:非负矩阵分解
- 融合词项关联关系的半监督微博聚类算法被引量:2
- 2015年
- 针对微博文本内容短、稀疏、高维等特点,提出一种改进的半监督微博聚类算法。该算法利用词项间的关系丰富文本特征,通过定义词项文档间关联关系和词项文档内关联关系揭示词项间语义的关联程度,并由此自动生成有标记的数据来指导聚类过程。对词项先验信息进行成对约束编码,构建基于词项间成对约束的三重非负矩阵分解模型来实现微博的半监督聚类。实验结果表明,该算法可以减少繁琐的人工标记过程,并能高效地进行微博聚类。
- 马慧芳贾美惠子袁媛张志昌
- 关键词:半监督聚类非负矩阵分解
- 结合互信息和主题模型的微博话题发现方法被引量:5
- 2016年
- 为了解决短文本信息流的特征稀疏性对热点话题发现带来的挑战,提出了结合词语互信息和概率主题模型的微博热点话题发现方法。通过建立词共现矩阵并应用对称非负矩阵分解算法获取词项-主题矩阵,再利用概率潜在语义分析模型进行主题发现,最终通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。
- 孙曰昕马慧芳姚伟张志昌
- 关键词:概率潜在语义分析