国家高技术研究发展计划(2001AA4031)
- 作品数:6 被引量:32H指数:5
- 相关作者:郑家恒张虎刘江卢娇丽苗玺更多>>
- 相关机构:山西大学更多>>
- 发文基金:国家高技术研究发展计划山西省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于HMM的农作物信息抽取
- 本文以因特网(中国北方农业信息网等网站)上的种子资源作为语料资源,采用聚类的方法,生成训练语料,得到领域的主题集:通过训练主题和主题之间的关系,建立了针对水稻农作物的HMM模型。利用viterbi算法为未标注文本中的小句...
- 菅小艳郑家恒
- 关键词:主题信息抽取HMM
- 文献传递
- 农作物信息抽取系统的设计与实现被引量:5
- 2006年
- 研究了特定领域的文本的信息抽取,主要考虑了文本分布的观点。首先从未标注的语料中学习主题和主题间的关系,然后把它应用在同领域的文本信息抽取。经测试,其信息抽取的效果有所提高。
- 郑家恒菅小艳
- 关键词:主题信息抽取聚类K近邻
- 中文文本语料库分词一致性检验技术的初探被引量:10
- 2005年
- 对大规模语料库中的分词不一致现象进行分析,提出了语料库分词一致性检查和校对的新方法。该方法提取词与词之间语法、语义搭配信息,利用支持向量机的理论对候选序列进行判断,给出一个切分结果,进而提高汉语语料库切分的准确率。
- 刘江郑家恒张虎
- 关键词:支持向量机搭配
- 汉语语料库词性标注自动校对方法研究被引量:1
- 2005年
- 从聚类和分类的角度入手,对大规模语料库中的词性标注的自动校对问题作了分析,提出了语料库词性标注正确性检查和自动校对的新方法。该方法利用聚类和分类的思想,对范例进行聚类并求出阈值,根据阈值,判定词性标注的正误;对标注错误的词性,按靠近各词性类别重心的原则归类,给出一个校对词性,进而提高汉语语料库词性标注的准确率。
- 张虎郑家恒刘江
- 关键词:聚类词性标注
- 语料库词性标注一致性检查方法研究被引量:9
- 2004年
- 在对大规模语料库进行深加工时 ,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法 ,该方法避开了以前一贯采用的规则或统计的方法 ,利用聚类和分类的思想 ,对范例进行聚类并求出阈值 ,对测试数据分类来确定其标注的正误 ,进而得出每篇文章的词性标注一致性情况 。
- 张虎郑家恒刘江
- 关键词:计算机应用中文信息处理兼类词聚类