河南省教育厅自然科学基金(2007520050)
- 作品数:4 被引量:50H指数:4
- 相关作者:昝红英柴玉梅俞士汶张坤丽朱学锋更多>>
- 相关机构:郑州大学北京大学仰恩大学更多>>
- 发文基金:河南省教育厅自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 现代汉语虚词知识库的研究被引量:30
- 2007年
- 现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。
- 昝红英张坤丽柴玉梅俞士汶
- 关键词:计算机应用中文信息处理虚词语言知识库规则库
- 面向机器识别的现代汉语副词用法规则问题研究
- 副词用法多样,已有的副词研究大都是面向人用的,很难直接用于自然语言处理的实际应用中。本文从副词的实际用法入手,调整和完善了副词用法信息词典,构建了面向机器识别的规则库,并对用法信息词典中的部分例句进行了自动标注,基本形成...
- 郝丽萍昝红英张坤丽范明
- 关键词:自然语言理解
- 面向自然语言处理的汉语虚词研究与广义虚词知识库构建被引量:22
- 2009年
- 现代汉语虚词的研究历史悠久,成果丰富。但是目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于NLP的相关研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对《人民日报》分词与词性标注语料中虚词用法规律的考察,着力构建面向NLP的现代汉语广义虚词知识库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。
- 昝红英朱学锋
- 关键词:现代汉语虚词语言知识库规则库语料库
- 香港法律汉英双语语料库XML自动标注
- 本文报告对汉英双语香港法律条文内容及层次结构特征进行 XML 自动标注的工作。标注好的语料库的整体结构与实际法律逻辑组织结构相同,并且利用标记信息实现条文内容的检索定位。本文的 XML 双语语料标注遵照国际语料库编码标准...
- 张霞昝红英揭春雨张坤丽范明
- 关键词:双语语料库法律条例
- 汉英句子对齐长度计算方法的研究被引量:7
- 2009年
- 传统的基于长度的汉英双语句子对齐算法大都以字节作为汉英句子长度的计算单位。提出了几种不同的汉英句子长度计算方法,分别以句子所含动词、名词、形容词、实词、字节及所含全部词语个数作为句子的长度,进行基于长度的汉英句子对齐。实验结果表明,汉英句子对齐以词语作为句子长度计算单位时,正确率为99.01%,召回率为99.5%。
- 张霞昝红英张恩展
- 关键词:自然语言处理双语语料库句子对齐
- 现代汉语虚词知识库的研究
- 现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的角度出发,根据目前已有的虚...
- 昝红英张坤丽柴玉梅俞士汶
- 关键词:虚词语言知识库规则库
- 文献传递
- 基于质心的文本分类算法被引量:6
- 2009年
- 当文本集较分散或出现多峰值时,基于质心的文本分类算法分类效果很差。针对该问题提出一种改进的文本分类算法,与基于质心的经典分类算法相比,其性能较高。在香港慧科讯业公司提供的文本分类语料库上的测试结果表明,该算法的效率和精度满足要求。
- 柴玉梅朱国重咎红英胡达明冼家扬
- 关键词:文本分类质心K近邻