金光赫
- 作品数:4 被引量:3H指数:1
- 供职机构:东北大学信息科学与工程学院更多>>
- 发文基金:中央高校基本科研业务费专项资金国家教育部博士点基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 朝鲜语信息检索索引方法研究
- 2011年
- 基于朝鲜语信息检索系统的深入分析,研究提高朝鲜语信息检索性能的索引问题。通过剖析名词单位索引法、单位词素索引法、n-gram单位索引法、单位语句索引法等经典索引法的优缺点,以试验分析找出对索引性能有重要影响的关键要素,深入阐述朝鲜语的30个非用词、索引方式与朝鲜语的特征,从而提出一种新的将每种索引方法特征融于一体的朝鲜语信息检索索引方法。仿真实验表明,所提出的新方法具有更好的性能。
- 金光赫王兴伟蒋定德
- 关键词:朝鲜语索引法
- 基于N-GRAM的朝鲜文索引方法与性能评价
- 2012年
- 在为检索信息而索引朝鲜文时,通常的做法是对语句和词素进行分析后把名词抽取成索引词.但由于分析的模糊性,若在对词素进行分析时出现参考的词典上不存在的未登录词的情况,就很难抽取正确的索引词.N-gram不需要对词进行语言的分析,因而索引速度快,而且对词素分析词典里不存在的未登录词的分析有利,所以对分析复合名词有很好的效果.但与别的分析方法相比,使用N-gram时会出现因索引词抽取得太多而导致存储空间使用率低和索引效率的下降.为了克服N-gram的缺点,本文提出了一种新的朝鲜语自动索引方法.该方法首先把体词与谓词抽取成索引词后,再利用语句类型规则对词素分析中失败的语句进行助词分离,最后在未登录词处理中使用N-gram的索引方法.对比分析和性能评价表明,所提出的方法是有效的.
- 金光赫王兴伟蒋定德
- 关键词:朝鲜语未登录词复合名词
- 一种基于相关反馈的信息检索模型被引量:3
- 2012年
- 针对现有信息检索系统难以按查询需求处理检索文档的问题,提出了一种基于相关反馈的信息检索模型,分析了查询词分解,推导了相关反馈机制和正规化过程,并进一步阐述了文档提取方法。提出的模型通过相关反馈和查询词扩展,克服了传统方法无法计算文档与查询词之间的相似度问题,并能有效地处理检索文档。仿真结果证明了该模型的有效性和可行性。
- 金光赫王兴伟曲大鹏蒋定德
- 关键词:信息检索查询分解查询扩展
- 提高检索性能的朝鲜语布尔查询词生成及扩展
- 2013年
- 为了提高信息检索系统的检索性能,同时方便用户的操作,本文提出一种新的方法将用户输入的朝鲜自然语句自动转换成扩展的布尔查询词.首先基于句法信息将用户输入的朝鲜自然语句生成布尔查询词,然后对查询词进行句法分析,利用句法树组合或分离结构上相互联系的复合名词,并以扩展多样标记和简略标记用语扩展检索.同普通的检索方法和手动提取布尔查询词检索方法相比,本文提出的方法在准确率上分别高出8%和12%.
- 金光赫王兴伟曲大鹏
- 关键词:句法分析句法树查询扩展