国家科技支撑计划(2012BAH14F00)
- 作品数:16 被引量:69H指数:3
- 相关作者:蔡东风王裴岩张桂平季铎杨华更多>>
- 相关机构:沈阳航空航天大学南京航空航天大学中国商飞上海飞机设计研究院更多>>
- 发文基金:国家科技支撑计划国家自然科学基金辽宁省教育厅高等学校科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于统计检验的核函数度量方法研究被引量:2
- 2015年
- 将统计检验方法应用于核函数度量。以核函数、规范化核函数、中心化核函数和核距离作为样本在特征空间中的几何关系度量,使用t检验和F检验等7种统计检验方法检验特征空间中同类样本间几何关系度量值与异类样本间几何关系度量值的分布差异,以此反映特征空间中同类样本间内聚性与异类样本间分离性间的差异。在11个UCI数据集上进行的核函数选择实验表明,基于统计检验的核度量方法达到或超过了核校准与特征空间核度量标准等方法的效果,适用于核函数度量;并且发现两类数据分布差异主要体现在了方差差异上。此外,对核函数的处理(规范化或中心化)会改变特征空间,使得度量结果失真。
- 王裴岩蔡东风
- 关键词:核函数
- 面向中文专利SAO结构抽取的文本特征比较研究被引量:16
- 2015年
- 针对中文专利文本中SAO结构实体关系抽取问题,使用支持向量机的机器学习方法进行关系抽取实验,分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明,基本的词法信息能够明显提高关系抽取性能,而句法信息没有显著提高关系抽取效果。此外,也验证了词向量在SAO结构关系抽取中的可行性。
- 饶齐王裴岩张桂平
- 关键词:关系抽取
- 基于辅助短语标记的名词短语识别被引量:2
- 2014年
- 名词短语的识别是自然语言处理领域中非常重要的子任务。而名词短语的识别性能与识别效率一直是研究人员关注的焦点,为了达到兼顾二者的目的,提出了一种基于辅助短语标记识别名词短语的方法。首先,在分析了短语不同分类体系的基础上,构建了一种映射公式,并根据该公式对不同分类体系的短语类别之间进行映射。然后,根据映射结果及短语的概率分布进行辅助短语标记的组合。实验结果表明,本文的方法在提高F值的基础上,有效地降低了系统的时间开销。
- 刘飞周俏丽张桂平
- 关键词:名词短语
- 一种无指导的子主题挖掘方法被引量:1
- 2016年
- 为了解决用户查询经常存在表意模糊或歧义性等问题,明确用户的查询意图,该文提出了一种无指导的子主题挖掘方法。该方法首先在检索结果文档集中利用ATF×PDF模型挖掘候选主题词;其次,为保证子主题的多样性,该文基于HowNet语义相似度方法对候选主题词进行了层次聚类分析,进而得到潜在主题;最后,利用LCS算法生成多样性子主题。实验结果显示,系统平均D#-nDCG@10达到0.573,结果说明该方法在明确查询主题表意方面取得了较好效果。
- 郭程白宇郑剑夕蔡东风
- 关键词:查询意图潜在主题
- 基于分类策略的术语识别系统融合被引量:2
- 2015年
- 近年来,基于机器学习方法的术语识别取得了不错的效果.然而,不同系统往往由于采用不同的学习方法或特征集而各有特点,他们在统计意义上性能接近的同时,在具体表现上却存在差异,那么,如何融合各个系统的不同特点和差异以求进一步提升术语识别的效果变得很有价值.针对该问题并结合这些系统自身的特点,提出一种基于分类策略的术语识别系统融合方法.该方法将融合问题看作一个二分类问题,同时,在分类器的设计过程中更加灵活和更多地整合了上下文信息和依存句法信息.在中文术语识别实验中的结果验证了该方法的有效性,融合后的结果好于每一个单系统.
- 张华叶娜周俏丽蔡东风
- 基于HowNet的航空术语语义知识库的构建被引量:9
- 2014年
- 语义知识库的构建是自然语言处理基础性工作,对于语言信息的处理有重要的作用,但面向特定领域的语义知识库的构建还是一个难点。该文在分析了航空术语的基本特点的基础上,根据HowNet和KDML描述语言构建了面向航空领域的术语语义知识库,并在构建航空术语知识库的过程中总结形成了构建航空术语知识库的基础规则、动态角色/特征的选择规则。在文章最后对所构建的术语进行了相似度的计算,取得了较好的结果。
- 张桂平刁丽娜王裴岩
- 关键词:HOWNET语义知识库
- 基于根偏置子树的决策式依存句法分析被引量:1
- 2015年
- 决策式依存句法分析方法由于分析算法的确定性和贪婪性导致其在句法分析过程中容易出现严重的错误传播。缓解这一问题的一种方法是对待分析句子做预分析,以缩减句子长度,减少决策次数。但当前的名词短语、介词短语等短语句法信息存在定义不清晰、有歧义、内部依存结构多样和不易识别等问题,导致决策系统无法对这些短语句法结构进行高质量的预分析。针对以上问题,对依存树库中的依存树结构进行分析,从而定义了一种根偏置子树,这种子树具有定义清晰明确、结构简单固定的优点,可以在决策式依存句法分析前,能更准确地分析出子树的依存结构,从而达到缩减句子长度,减少决策次数,提升决策式依存句法分析器性能的目的。
- 夏大伟季铎蔡东风张桂平
- 关键词:依存句法分析
- Wikipedia跨语言链接发现中的锚文本译项选择
- 2016年
- Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。
- 郑剑夕白宇郭程张桂平
- 关键词:WIKIPEDIA锚文本
- 基于马尔科夫逻辑网的中文专利最大名词短语识别被引量:2
- 2016年
- 缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。
- 蔡东风赵奇猛饶齐王裴岩
- 关键词:中文专利
- 专利中基于语义角色的术语相似度计算方法被引量:2
- 2016年
- 术语是由一个到多个单词按照某种语义角色组合而成的,传统的基于统计的相似度计算方法,将术语看作一个基本单元来进行计算,忽略了术语内部的语义角色,且对于上下文信息不丰富的术语,无法利用统计的方法取得理想的效果;基于语义资源的相似度计算方法,所涵盖的词语有限,因此不包含在语义资源中的术语便无法计算相似度。针对这些问题,该文针对专利提出了基于语义角色的术语相似度计算方法,该方法弥补了传统方法的不足。该文对术语内部的单词进行语义角色标注,通过共享最近邻方法计算单词的相似度,然后根据不同的语义角色,利用单词相似度来计算术语相似度。实验表明,该方法与传统方法相比,取得了较好的效果。
- 姜利雪季铎蔡东风
- 关键词:共享最近邻