邹纲
- 作品数:6 被引量:80H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 面向Internet的中文新词语检测被引量:77
- 2004年
- 随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。
- 邹纲刘洋刘群孟遥于浩西野文人亢世勇
- 关键词:计算机应用中文信息处理新词语
- 基于汉英双语语料库述宾短语的自动抽取
- 本文针对政府文件汉英语料库的特点,提出了一种自动抽取双语述宾短语等价对译单位的算法,其中充分利用了位置、词性、英汉词典和语法知识等信息。本算法回避了互信息等基于统计的方法固有的数据稀疏问题,并能抽取低频和较长距离依赖的短...
- 彭国珍邹纲
- 关键词:双语语料库述宾短语机器翻译
- 文献传递
- 一种中文新词语的检测方法及其检测系统
- 本发明涉及一种中文新词语的检测方法及其检测系统。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时...
- 邹纲刘群
- 文献传递
- 中文新词语自动检测研究
- 随着社会、经济的飞速发展,越来越多的中文新词语出现在人们的生活中.新词语的出现丰富了语言的色彩,同时也给扁编纂、中文自然语言处理等领域带来了挑战.如何寻找新词语成了一个重要的问题.然而目前新词语并没有一个明确的、公认的定...
- 邹纲
- 关键词:串频统计
- 文献传递
- 一种中文新词语的检测方法及其检测系统
- 本发明涉及一种中文新词语的检测方法及其检测系统。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时...
- 邹纲刘群
- 文献传递
- 面向Internet的中文新词语检测
- 邹纲刘洋刘群孟遥于浩西野文人亢世勇
- 文献传递