公共文化服务平台

2025年1月11日星期六

|

欢迎来到海南省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

苑春法: 作品数：19 被引量：404H指数：12; 供职机构：清华大学更多>>; 发文基金：国家自然科学基金国家重点基础研究发展计划更多>>; 相关领域：自动化与计算机技术语言文字更多>>

合作作者

黄昌宁清华大学信息科学技术学院计算机...
黄锦辉香港中文大学
林静清华大学信息科学技术学院计算机...
陈刚清华大学
王宁清华大学信息科学技术学院计算机...

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

15篇期刊文章
3篇会议论文
1篇学位论文

领域

15篇自动化与计算...
1篇语言文字

主题

9篇汉语
5篇信息处理
4篇语料
4篇语料库
3篇语素
3篇语言模型
3篇语言学
3篇中文
3篇句法
3篇句法分析
3篇计算语言
3篇计算语言学
3篇构词
3篇构词规律
3篇构词研究
3篇汉语语素
3篇抽取
3篇词性
3篇词研究
2篇信息抽取

机构

19篇清华大学
3篇香港中文大学
1篇北京语言大学
1篇香港理工大学

作者

19篇苑春法
8篇黄昌宁
3篇黄锦辉
2篇陈刚
2篇林静
1篇李莼
1篇邢红兵
1篇李文捷
1篇崔永华
1篇秦文
1篇李庆中
1篇闻扬
1篇曹德芳
1篇王昀
1篇葛瑞芳
1篇王宁

传媒

8篇中文信息学报
3篇清华大学学报...
2篇计算机应用
1篇世界汉语教学
1篇语言文字应用
1篇第二届中日自...
1篇全国第二届计...
1篇全国第五届计...

年份

1篇2009
1篇2008
4篇2004
2篇2002
2篇2001
1篇2000
2篇1999
2篇1998
1篇1997
1篇1993
1篇1992
1篇1982

共 19 条记录，以下是 1-10

全选清除导出

排序方式：

统计语言模型中一些问题的思考: 数据稀疏是统计语言学研究中一个永久的话题.如何解决数据稀疏问题?如何使数据不稀疏?一直是大家所关心的问题.本文仅仅从模型和数据的角度提出了一些问题,提出了一些想法.以抛砖引玉,促进这方面的研究.; 苑春法; 关键词：统计语言模型数据稀疏支持向量机计算语言学; 文献传递

基于决策树的汉语未登录词识别被引量：47: 2004年; 未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和‘分’(分为两单字词 )两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识 :前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4 5算法生成了决策树。在分词程序已经识别出一定数量的未登录词[6 ] 而仍有分词碎片情况下使用该方法 ,开放测试的召回率 ;6 9 4 2 % ,正确率 :4 0 4 1%。实验结果表明 ,基于决策树的未登录词识别是一种值得继续探讨的方法。; 秦文苑春法; 关键词：自然语言处理未登录词识别数据挖掘决策树 C4.5算法

基于语素数据库的汉语语素及构词研究被引量：94: 1998年; 苑春法黄昌宁; 关键词：汉语语素语素义构词方式构词规律形容词

基于遗传算法的汉语构词研究: 2001年; 从语素数据库中获取语素的构词知识 ,研究汉语的构词规律对于汉语信息处理具有非常重要的意义。汉语语素数据库是一个大规模的含有丰富汉语构词知识的数据库 ,而遗传算法是求解大规模复杂组合寻优问题的一种有效手段。在汉语构词规律的研究中 ,首次引入遗传算法对带有构词方式、类序、字义组合以及首、尾语义类 (分大类层次和中类层次 ) 5个特征的汉语二字复合名词的构词规律进行了探索 ,并取得了阶段性成果。实验证明。; 苑春法李莼崔永华邢红兵; 关键词：遗传算法汉语语素构词规律汉语信息处理

中文金融新闻中公司名的识别被引量：77: 2002年; 在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别公司名的知识库 ,并提出了一个基于两次扫描过程的识别策略。初步实验结果表明 ,在封闭测试中实验系统公司名识别的精确率可以达到 97 3% ,召回率可达 89 3% ;在开放测试中精确率可以达到 6 2 8% ,召回率可达 6 2 1%。; 王宁葛瑞芳苑春法黄锦辉李文捷; 关键词：金融领域专名识别信息抽取金融新闻

基于词性和语义知识的汉语句法规则学习被引量：17: 2001年; 本文提出了一种汉语句法规则学习的新方法。本方法的特点是 :在规则的学习和表示上都利用了词性、语义以及上下文相关的信息。它不仅能自动学习上下文无关的二元规则 ,而且还能自动发现词类搭配中的歧义结构 ,并利用语义和上下文相关信息将歧义规则在句法分析之前进行排除。实验结果表明 ,该方法较好地解决了汉语句法规则的自动获取及排歧问题并极大地降低了句法分析的难度 ,显示了很好的应用前景。; 苑春法陈刚黄昌宁; 关键词：句法分析汉语

基于转换的时间-事件关系映射被引量：22: 2004年; 近些年来 ,中文时间信息抽取和处理已经变得越来越重要。然而 ,很少有研究者关注中文文本中事件信息所对应的时间信息的识别和分析。本文的目的就是确定文本中时间信息和事件信息之间的映射关系。区别于传统的基于规则的方法 ,本文采用了一种机器学习的方法—基于转换的错误驱动学习—来确定事件相应的时间表达 ,这种学习算法可以自动的获取和改进规则。使用训练得到的转换规则集后 ,系统的时间 -事件映射错误率减少了 9 74 % 。; 王昀苑春法; 关键词：计算机应用中文信息处理信息抽取

基于语料库的语言建模被引量：14: 1997年; 语料库语言学的发展的核心问题是语言模型的建立问题。常用的语言模型可以概括为三类：（１）ｎ元模型（及隐马尔可夫模型）；（２）基于分布理论的模型；（３）基于规则的模型。基于语料库的建模过程就是对语言模型的参数进行求解的过程，也可以认为是一个机器学习的过程。它可分为两大类别：（１）有指导学习；（２）无指导学习。本文着重论述了近年发展的热点——无指导学习的各种技术和影响参数可信度的数据稀疏问题及其解决办法。; 许伟苑春法黄昌宁; 关键词：语言模型语料库语言学隐马氏模型计算语言学

中文时间信息的TIMEX2自动标注被引量：21: 2008年; 为了完善中文时间信息标注规范,实现中文时间短语的自动标注,该文研究并修改国际通用的时间短语标注规范TIMEX2的中文标注草案,以此为基础开发一个基于正则表达式的中文TIMEX2自动标注系统(CTAT)。该系统采用3层候选确定参考时间,并行使用多个模块识别输入句子中的时间短语,通过排序冲突消解确定最终结果。经测试,该系统识别时间短语和将时间信息值解析为标准格式的Fmeasure分别达到了90.15%和83.27%,与其他语言同类系统性能相当。应用该系统标注的语料,为时间信息处理方面的后续研究提供了重要资源。; 林静曹德芳苑春法; 关键词：信息处理

汉语时间关系抽取与计算被引量：11: 2009年; 时间关系普遍存在于时间和事件概念之间,为信息组织提供了一条天然的线索。该文在信息抽取和时间信息标注的基础上,研究汉语中时间与时间、事件与时间和事件与事件之间的时间关系。一方面考虑汉语文本的特点,充分抽取蕴含于语法语义层面中的时间关系;另一方面定义了与文本无关的规则,实现了不同来源信息之间的时间关系的计算。这为信息抽取结果的组织、积累和共享打下了基础,对于事件追踪、多文本摘要等方面的研究也有一定的借鉴意义。; 林静苑春法; 关键词：计算机应用中文信息处理信息组织

全选清除导出

共2页<1 2>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@海南省图书馆 2014－2015 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张