俞士汶
- 作品数:157 被引量:1,839H指数:25
- 供职机构:北京大学信息科学技术学院计算语言学研究所更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学电子电信更多>>
- 汉语短语标注标记集的确定被引量:46
- 1996年
- 本文提出了一个汉语短语标注的基本标记集,并从句法功能和结构组成方面对不同短语的性质进行了深入的分析和探讨,以期为汉语短语划分和标注的自动处理和人工校对提供一个统一的处理标准。
- 周强俞士汶
- 关键词:汉语汉语语料库
- 现代汉语虚词知识库的研究被引量:30
- 2007年
- 现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。
- 昝红英张坤丽柴玉梅俞士汶
- 关键词:计算机应用中文信息处理虚词语言知识库规则库
- 现代汉语介词知识库的建设被引量:4
- 2009年
- 现代汉语介词知识库是现代汉语广义虚词知识库的重要组成部分。文章主要讨论现代汉语介词知识库建设的意义、与现代汉语广义虚词知识库的关系、建构的原则以及主要内容。
- 彭爽俞士汶
- 基于词典的名词性隐喻识别
- 隐喻是用一个事物来类比另外一个事物的语言表达,在自然语言中非常普遍,要实现自然语言理解隐喻处理不可避免。本文针对最基本的隐喻类型——名词性隐喻,提出基于词典的识别方法。结合同义词词林的语义距离与HowNet的语义关系来识...
- 贾玉祥俞士汶
- 关键词:名词性隐喻词典语义距离语义关系
- 文献传递
- 现代汉语语素库的开发及应用被引量:14
- 1999年
- 俞士汶朱学锋李峰
- 关键词:单汉字未登录词汉语字词单纯词
- 语言工程实践之体验
- 北京大学计算语言学研究所积30余年之努力,建成以《现代汉语语法信息词典》为基础的综合型语言知识库,为中文信息处理技术的发展发挥了重要作用.本文总结作者主持这项大规模语言工程的体验.以具体案例阐述自然语言处理技术为什么需要...
- 俞士汶朱学锋
- 关键词:自然语言处理语言知识库语法分析机器词典
- 基于连接关系的汉语词典信息的推断被引量:1
- 1991年
- 日本和印度尼西亚、泰国、中国、马来西亚正在合作开发多国语言机器翻译系统。本文介绍这个项目中的正在研究开发的汉语词典开发辅助系统的词典信息推断功能。 这个项目从1987年开始,计划用6年时间,采用中间语言方式,实现5国语言间的互相翻译,打算利用本词典开发辅助系统进行编制的汉语词典,将主要用于这个项目中的汉语分析、汉语生成以及中文输入。 本汉语词典开发辅助系统,以大量语料为基础,收集单词,推断能从例句导出的词典信息,还可以检验人工完成的词典记述并补充词典信息。本文叙述了从分析大量语料入手,在提取词典中尚未登录的单词(形态素)的同时,建立KWIC(上下文中关键词)索引,井以这种大规模的KWIC为基础,根据源于连接关系的束缚条件推断语法特征尚不清楚的汉语单词的语法属性的方法。
- 朱美英内田裕士俞士汶
- 关键词:汉语词典汉语生成语法属性未登录词中文输入结果补语
- 中文缩略语知识库建设
- 缩略语是自然语言语汇的重要组成部分,是未定义词的主要来源之一,因此,缩略语研究是自然语言处理的一个重要课题。本项研究的最终目标是探索中文缩略语的规律,包括缩略语的生成和还原,也就是缩略语的编码和解码。本项研究旨在建立一个...
- 支流段慧明朱学锋俞士汶
- 关键词:自然语言处理缩略语
- 文献传递
- 人称代词和名词的组合搭配研究
- 人称代词(r)和名词(n)的线性序列中人称代词和名词的关系呈现出多样性,本文在现代汉语语法信息词典的基础上考察了r和n的组合类别,指出汉语r+n的搭配存在选择限制,r和n可以形成表示领属关系的定中结构,也可以形成表示同指...
- 王治敏李芸俞士汶
- 文献传递
- 语言模型复杂度度量与汉语熵的估算被引量:12
- 2006年
- 运用信息论理论,从信息熵的角度对统计语言模型的复杂度度量方法进行了定量化的推理与描述,得出了语言模型对语言熵的估算值越小,说明该模型对语言的描述越精确以及两个n-1元文法模型插值形成的新模型,其性能好于n-1元文法模型,但不及n元文法模型的结论.并对应用语言模型估算汉语信息熵的方法进行了探讨.
- 张仰森曹元大俞士汶
- 关键词:语言模型复杂度