夏青
- 作品数:3 被引量:3H指数:1
- 供职机构:昆明理工大学信息工程与自动化学院更多>>
- 发文基金:国家自然科学基金云南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 汉柬命名实体翻译等价对获取方法研究
- 命名实体等价对是自然语言处理中的重要基础资源,在跨语言信息检索、机器翻译等领域都有重要应用。与其它大语种相比,由于语料规模和基础研究的欠缺,目前在汉柬命名实体等价对获取方法的研究上,还处于起步阶段。本文主要围绕如何获取汉...
- 夏青
- 关键词:维基百科
- 文献传递
- 基于特征相似度的可比语料挖掘汉柬命名实体等价对
- 2017年
- 命名实体翻译等价对在跨语言信息处理中具有非常重要的应用价值,然而由于语料资源的有限性,国内外关于汉柬命名实体等价对的抽取方法还没有深入研究。论文从可比语料文本出发,根据不同类型实体要素的特点以及在可比语料中的特点,选取了柬文命名实体到中文命名实体的音译特征、翻译特征、可比语料中命名实体的上下文特征及自身的长度特征,提出了一种基于多特征融合来计算相似度的方法来挖掘汉柬双语命名实体等价对。实验表明该方法取得了比较好的效果,其中挖掘人名实体对的准确率达到76%,召回率达到66%,证明了该方法要优于只采用单一特征的方法。
- 徐璐严馨夏青周枫莫源源
- 关键词:多特征融合
- 融合要素及主题的汉越双语新闻话题分析被引量:3
- 2016年
- 双语话题分析与发现是当前国内外的研究热点,但针对特定文本研究较少。为此,在汉越双语新闻文本中,基于双语主题分布词的汉越文本相似度计算方法,提出融合标题、关键词以及实体等并针对新闻文本的新闻要素特征。将这些新闻特征信息融合到文本相似度计算中构建双语文本相似度矩阵,对汉越双语新闻文本采用自适应K均值算法进行聚类,分析汉越双语新闻话题。实验结果表明,与仅考虑新闻文本相似度的计算方法和K均值聚类方法相比,该方法的准确率、召回率和F值更高。
- 夏青严馨余正涛汪建成高盛祥洪旭东
- 关键词:文本相似度主题自适应聚类