国家重点基础研究发展计划(G1998030507)
- 作品数:12 被引量:474H指数:9
- 相关作者:孙茂松苑春法邹嘉彦周强朱小燕更多>>
- 相关机构:清华大学香港城市大学香港中文大学更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金重庆市科技攻关计划更多>>
- 相关领域:自动化与计算机技术语言文字电子电信更多>>
- 短语树到依存树的自动转换研究被引量:16
- 2005年
- 不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(TsinghuaChineseTreebank ,简称TCT)标注体系的特点,提出了一种将TCT从短语结构转换成依存结构(DependencyStructure)的算法。这种算法充分利用了TCT具有的功能、结构的双重标记,转换得到的依存树不仅包含了各个节点之间相互依存的层次关系,更包含了相互依存的两个节点的具体的依存关系类型。我们对转换的效果进行了抽样评估,准确率可以达到97 37%。
- 党政法周强
- 关键词:人工智能自然语言处理树库自动转换
- 利用上下文信息解决汉语自动分词中的组合型歧义被引量:43
- 2001年
- 组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。
- 肖云孙茂松邹嘉彦
- 关键词:自然语言处理汉语自动分词中文信息处理
- 汉语部分分析研究
- 本文概要介绍了近年来我们在汉语部分分析方面的研究工作,包括设计部分分析和标注体系构建大规模的部分信息标注语料库、探索不同层次的部分分析方法等,并提出了一些应用设想。
- 周强
- 关键词:语料库标注
- 文献传递
- 基于标注语料库的现代汉语句子语义结构研究
- 我们对包含228960个句子、计420万字的《人民日报》语料库进行了人工语义标注,从中归纳出不同的现代汉语句子语义结构共3542种。进一步给出了其分布,并阐述了标注句子语义结构的意义。
- 亢世勇孙茂松田珍都
- 关键词:中文信息处理
- 文献传递
- 多值因果图的推理算法研究被引量:9
- 2003年
- 针对多值因果图存在的两个困难 :(1)不严格满足概率论 ;(2 )将其用于实际问题时 ,推理结果可能出现错误 ,提出了一种基于因果影响可能性分配的推理算法 .该算法将多值因果图的推理分成 3个阶段 ,首先对多值因果图进行补充定义 ,使多值因果图能够兼容单值因果图 ;接着将多值因果图转化为单值因果图进行概率计算 ;最后对多值因果图进行可能性计算 ,将单值因果图计算得到的概率按多值因果图计算得到的可能性进行分配 .以核电站二回路系统中蒸汽发生器故障诊断因果图为例 ,展示了该算法推理计算的全过程 .实例表明 ,该算法能够有效地克服多值因果图存在的困难 ,其推理过程严谨 ,计算结果符合实际情况 .在前面提出的推理算法基础上 ,针对其不能处理模糊情况的局限性 ,提出了一种模糊推理算法 .该算法对多值因果图进行了模糊扩展定义 ,在读数变量和事件变量之间建立了用于表达模糊知识的模糊对应关系 ,在事件变量上定义了一个等价的虚拟模糊状态 ,使读数变量取值对应一个模糊状态 ,把读数的模糊推理转化为对应模糊状态的非模糊推理 .通过本文的工作 。
- 樊兴华张勤孙茂松黄席樾
- 关键词:信度网人工智能
- 汉语自动分词研究的若干最新进展——清华大学相关工作简介
- 清华大学智能技术与系统国家重点实验室一直致力于汉语自动分词的研究.现将最近几年在这方面的主要研究成果向大家扼要汇报一下,希望得到学者们的指正.1.信息处理用现代汉语分词词表国家技术监督局于1993年发布了中华人民共和国国...
- 孙茂松
- 文献传递
- 基于字串内部结合紧密度的汉语自动抽词实验研究被引量:48
- 2003年
- 自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现 ,进而尝试将它们组合在一起 ,以期提高性能。为了达到尽可能好的组合效果 ,采用了遗传算法来自动调整组合权重。对二字词的自动抽词实验结果表明 ,这九种常用统计量中 ,互信息的抽词能力最强 ,F measure可达 5 4 77% ,而组合后的F measure为 5 5 4 7% ,仅比互信息提高了 0 70 % ,效果并不显著。我们的结论是 :( 1)上述统计量并不具备良好的互补性 ;( 2 )通常情况下 ,建议直接选用互信息进行自动抽词 ,简单有效。
- 罗盛芬孙茂松
- 关键词:计算机应用中文信息处理自动抽词遗传算法
- 基于奥运语料的语义成分标注规范
- 本文首先拟定23类语义成分的标注符号及标注方法,进而针对初步标注中出现的问题提出可行的处理方法,最终形成一套标注规范,为进行大规模语料标注提供依据。
- 李毅亢世勇孙茂松孙道功
- 关键词:中文信息处理语义成分
- 文献传递
- 中文金融新闻中公司名的识别被引量:77
- 2002年
- 在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别公司名的知识库 ,并提出了一个基于两次扫描过程的识别策略。初步实验结果表明 ,在封闭测试中实验系统公司名识别的精确率可以达到 97 3% ,召回率可达 89 3% ;在开放测试中精确率可以达到 6 2 8% ,召回率可达 6 2 1%。
- 王宁葛瑞芳苑春法黄锦辉李文捷
- 关键词:金融领域专名识别信息抽取金融新闻
- 基于神经元网络的汉语短语边界识别被引量:21
- 2002年
- 短语边界的识别是浅层句法分析或组块分析的基础 ,对真实文本的处理具有重要意义。在一个含有 6 442 6词的汉语树库的支持下 ,本文设计并实现了基于神经元网络的汉语短语边界自动识别模型。初步实验结果显示 ,该模型的界定准确率为 93 2 4 % (封闭测试 )和 92 5 6 % (开放测试 )。
- 奚晨海孙茂松
- 关键词:神经元网络中文信息处理浅层句法分析组块分析文字识别