胡熠
- 作品数:3 被引量:4H指数:2
- 供职机构:阿里巴巴集团更多>>
- 发文基金:北京市哲学社会科学规划项目国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 机器翻译研究中统计方法的局限及翻译范式更迭规律
- 2021年
- 在翻译范式研究中,一个亟待加强的研究领域是机器翻译。本文结合机器翻译发展史,考察三种机器翻译研究范式——基于规则的机器翻译、基于语料库的机器翻译和神经机器翻译。研究发现:(1)基于语料库的机器翻译存在局限性,其译文质量已逊于神经机器翻译;(2)神经机器翻译范式并非用某种语言学理论可以完全涵括。这项研究对于辩证地认识译界盛行的“语料库+统计”研究范式以及探究未来翻译范式发展趋势具有一定价值和意义。
- 周柳丹李学宁胡熠
- 关键词:机器翻译研究范式语料库
- 搜索引擎的一种在线中文查询纠错方法被引量:2
- 2016年
- 该文主要解决中文搜索引擎的查询纠错问题。错误的查询,已经偏离用户真实的搜索意图时,搜索质量很差,甚至导致搜索结果数为零。为此该文提出了一种服务于实际搜索引擎,较为完整的查询纠错方案。该文重点描述了纠错查询候选生成、纠错查询候选评价、以及基于核函数,挑选最优纠错查询候选等内容。通过在开放测试集上的准确率/召回率验证,以及在搜索引擎中实际的DCG评测,该文的方案都取得了较好的效果。
- 胡熠刘云峰杨海松张小鹏段建勇张梅乔建秀
- 网页搜索中查询时效性的实时计算模型被引量:2
- 2016年
- 网页搜索中的查询时效性是指查询对新闻网页的需求。这种时间相关的因素,在网页排序过程中用于平衡其他非时间性因素,使排序更好地满足用户体验。为此该文提出了一种查询时效性的实时计算模型:从用户搜索和媒体报道两个角度,分别对时效性建模,然后这两种不同来源的时效性相互补充,综合计算某个时刻用户搜索某个查询时,其综合时效性得分。这个量化得分在网页排序阶段用于提高或抑制新闻网页的露出;同时也为网页搜索结果中展现新闻直达区提供依据。在人工评测以及用户点击通过率统计上,该模型均取得了不错的实际效果。
- 胡熠刘云峰段建勇熊展志乔建秀张梅