国家高技术研究发展计划(2004AA117010-05)
- 作品数:4 被引量:139H指数:1
- 相关作者:尹存燕陈家骏戴新宇周俊生王清翔更多>>
- 相关机构:南京大学更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于SVM的日文网页分类被引量:1
- 2007年
- 网页分类是使用机器学习算法实现网页类别的自动标注。提出了一种基于SVM的日文网页分类方法,针对日文的特点,设计日文词素词典与规则库,并以此为基础进行日文分词和特征表示,然后使用互信息度进行特征选择,最后应用SVM来构造分类超平面,对日文网页进行分类。最后通过实验进行了验证。
- 王清翔仲婷潘金贵
- 关键词:SVM网页分类
- 基于层叠条件随机场模型的中文机构名自动识别被引量:137
- 2006年
- 中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法.
- 周俊生戴新宇尹存燕陈家骏
- 关键词:中文机构名识别条件随机场
- 一种基于语料库的日语动词格框架自动构造技术
- 2007年
- 结合一个基于格语法的日汉机器翻译系统,针对现有系统日语动词格框架缺乏的现状,提出一种日语动词格框架自动构造方法。该方法基于类比与统计思想,从现有的少量人工构造的动词格框架和大量生语料出发,自动构造日语动词格框架。
- 倪瑞煜戴新宇尹存燕陈家骏
- 关键词:机器翻译日语格语法
- 一种基于元规则的自然语言生成规则解释技术被引量:1
- 2006年
- 结合一个基于规则的日汉机器翻译系统,给出了自然语言生成规则的一种解释技术.该技术着眼于汉语生成规则语言的表达能力、自然性以及可扩充性,在实现中采用了基于元规则的方法,可以很方便地对规则语言进行扩充;另外,元规则的描述主要采用了自动机模型.所述的原则和技术也适用于一般的基于规则的自然语言处理系统.
- 孙明欣尹存燕戴新宇陈家骏
- 关键词:机器翻译规则语言元规则自动机