苑春法
- 作品数:19 被引量:404H指数:12
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 统计语言模型中一些问题的思考
- 数据稀疏是统计语言学研究中一个永久的话题.如何解决数据稀疏问题?如何使数据不稀疏?一直是大家所关心的问题.本文仅仅从模型和数据的角度提出了一些问题,提出了一些想法.以抛砖引玉,促进这方面的研究.
- 苑春法
- 关键词:统计语言模型数据稀疏支持向量机计算语言学
- 文献传递
- 基于决策树的汉语未登录词识别被引量:47
- 2004年
- 未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和‘分’(分为两单字词 )两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识 :前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4 5算法生成了决策树。在分词程序已经识别出一定数量的未登录词[6 ] 而仍有分词碎片情况下使用该方法 ,开放测试的召回率 ;6 9 4 2 % ,正确率 :4 0 4 1%。实验结果表明 ,基于决策树的未登录词识别是一种值得继续探讨的方法。
- 秦文苑春法
- 关键词:自然语言处理未登录词识别数据挖掘决策树C4.5算法
- 基于语素数据库的汉语语素及构词研究被引量:94
- 1998年
- 苑春法黄昌宁
- 关键词:汉语语素语素义构词方式构词规律形容词
- 基于遗传算法的汉语构词研究
- 2001年
- 从语素数据库中获取语素的构词知识 ,研究汉语的构词规律对于汉语信息处理具有非常重要的意义。汉语语素数据库是一个大规模的含有丰富汉语构词知识的数据库 ,而遗传算法是求解大规模复杂组合寻优问题的一种有效手段。在汉语构词规律的研究中 ,首次引入遗传算法对带有构词方式、类序、字义组合以及首、尾语义类 (分大类层次和中类层次 ) 5个特征的汉语二字复合名词的构词规律进行了探索 ,并取得了阶段性成果。实验证明 。
- 苑春法李莼崔永华邢红兵
- 关键词:遗传算法汉语语素构词规律汉语信息处理
- 中文金融新闻中公司名的识别被引量:77
- 2002年
- 在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别公司名的知识库 ,并提出了一个基于两次扫描过程的识别策略。初步实验结果表明 ,在封闭测试中实验系统公司名识别的精确率可以达到 97 3% ,召回率可达 89 3% ;在开放测试中精确率可以达到 6 2 8% ,召回率可达 6 2 1%。
- 王宁葛瑞芳苑春法黄锦辉李文捷
- 关键词:金融领域专名识别信息抽取金融新闻
- 基于词性和语义知识的汉语句法规则学习被引量:17
- 2001年
- 本文提出了一种汉语句法规则学习的新方法。本方法的特点是 :在规则的学习和表示上都利用了词性、语义以及上下文相关的信息。它不仅能自动学习上下文无关的二元规则 ,而且还能自动发现词类搭配中的歧义结构 ,并利用语义和上下文相关信息将歧义规则在句法分析之前进行排除。实验结果表明 ,该方法较好地解决了汉语句法规则的自动获取及排歧问题并极大地降低了句法分析的难度 ,显示了很好的应用前景。
- 苑春法陈刚黄昌宁
- 关键词:句法分析汉语
- 基于转换的时间-事件关系映射被引量:22
- 2004年
- 近些年来 ,中文时间信息抽取和处理已经变得越来越重要。然而 ,很少有研究者关注中文文本中事件信息所对应的时间信息的识别和分析。本文的目的就是确定文本中时间信息和事件信息之间的映射关系。区别于传统的基于规则的方法 ,本文采用了一种机器学习的方法—基于转换的错误驱动学习—来确定事件相应的时间表达 ,这种学习算法可以自动的获取和改进规则。使用训练得到的转换规则集后 ,系统的时间 -事件映射错误率减少了 9 74 % 。
- 王昀苑春法
- 关键词:计算机应用中文信息处理信息抽取
- 基于语料库的语言建模被引量:14
- 1997年
- 语料库语言学的发展的核心问题是语言模型的建立问题。常用的语言模型可以概括为三类:(1)n元模型(及隐马尔可夫模型);(2)基于分布理论的模型;(3)基于规则的模型。基于语料库的建模过程就是对语言模型的参数进行求解的过程,也可以认为是一个机器学习的过程。它可分为两大类别:(1)有指导学习;(2)无指导学习。本文着重论述了近年发展的热点——无指导学习的各种技术和影响参数可信度的数据稀疏问题及其解决办法。
- 许伟苑春法黄昌宁
- 关键词:语言模型语料库语言学隐马氏模型计算语言学
- 中文时间信息的TIMEX2自动标注被引量:21
- 2008年
- 为了完善中文时间信息标注规范,实现中文时间短语的自动标注,该文研究并修改国际通用的时间短语标注规范TIMEX2的中文标注草案,以此为基础开发一个基于正则表达式的中文TIMEX2自动标注系统(CTAT)。该系统采用3层候选确定参考时间,并行使用多个模块识别输入句子中的时间短语,通过排序冲突消解确定最终结果。经测试,该系统识别时间短语和将时间信息值解析为标准格式的Fmeasure分别达到了90.15%和83.27%,与其他语言同类系统性能相当。应用该系统标注的语料,为时间信息处理方面的后续研究提供了重要资源。
- 林静曹德芳苑春法
- 关键词:信息处理
- 汉语时间关系抽取与计算被引量:11
- 2009年
- 时间关系普遍存在于时间和事件概念之间,为信息组织提供了一条天然的线索。该文在信息抽取和时间信息标注的基础上,研究汉语中时间与时间、事件与时间和事件与事件之间的时间关系。一方面考虑汉语文本的特点,充分抽取蕴含于语法语义层面中的时间关系;另一方面定义了与文本无关的规则,实现了不同来源信息之间的时间关系的计算。这为信息抽取结果的组织、积累和共享打下了基础,对于事件追踪、多文本摘要等方面的研究也有一定的借鉴意义。
- 林静苑春法
- 关键词:计算机应用中文信息处理信息组织