王路路
- 作品数:13 被引量:49H指数:5
- 供职机构:新疆大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划新疆维吾尔自治区重点实验室开放课题基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于Django的汉维人名在线翻译系统被引量:3
- 2020年
- 人名是文本中表达关键信息的部分,机器翻译系统在人名翻译上的表现对翻译质量具有重要影响。人名翻译作为命名实体翻译的重要部分,具有重要的研究意义。设计与实现基于Django的汉语-维吾尔语人名自动翻译网络服务接口,供机器翻译、关键词翻译等系统使用。采用TensorFlow框架搭建翻译模型并实现Django Web服务接口。实验结果显示,该翻译模型的准确率达到93.7%,服务接口翻译速度达到每秒139.72个字符,具有良好的并发性。
- 西热艾力·海热拉艾山·吾买尔王路路
- 关键词:汉语维吾尔语人名DJANGO循环神经网络
- 面向人物简历的汉唯机器翻译研究
- 目前,大多数维吾尔族群众存在严重的跨语言交流障碍,随着丝绸之路经济带核心区建设的推进,研究维吾尔语文翻译信息化是促进各民族间交流交往交融的必要保障。现有的汉维机器翻译系统对于特定领域不适用,因此本文围绕人物简历信息,研究...
- 王路路
- 关键词:维吾尔语命名实体识别机器翻译
- 一种基于深度学习的维吾尔文命名实体识别方法
- 本发明公开了一种基于深度学习的维吾尔文命名实体识别方法,该方法包括如下步骤:(1)对维吾尔文本进行分词,对词分别进行字符提取和音节切分;(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量,并将它们拼接到一起形...
- 买合木提·买买提艾山·吾买尔吐尔根·依布拉音王路路卡哈尔江·阿比的热西提
- 文献传递
- 一种维-汉文可比语料自动获取方法
- 本发明公开了一种维‑汉文可比语料自动获取方法,包括如下步骤:获取多个维‑汉文可比语料,采用Adaboost方法对BP神经网络进行离线训练,得到一个分类器;通过分类器完成待检测文本内维‑汉文可比语料的获取。本发明实现了维‑...
- 米尔夏提·力提甫吐尔根·依布拉音卡哈尔江·阿布都热西提艾山·吾买尔买合木提·买买提瓦热斯·帕尔哈提王路路古丽尼格尔·阿不都外力
- 文献传递
- 基于条件随机场的维吾尔文机构名识别被引量:5
- 2019年
- 为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构名识别。实验结果表明,相比于基于规则的方法和隐马尔科夫模型(HMM),该方法不依赖于人工编写规则,识别的准确率和召回率较高。
- 买合木提.买买提王路路王路路艾山.吾买尔艾山吾买尔
- 关键词:机构名识别维吾尔语条件随机场
- 基于CRF和半监督学习的维吾尔文命名实体识别被引量:13
- 2018年
- 目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。
- 王路路王路路艾山吾买尔卡哈尔江.阿比的热西提吐尔根.依布拉音
- 关键词:条件随机场半监督学习
- 基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究被引量:6
- 2019年
- 词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。
- 古丽尼格尔·阿不都外力吐尔根·依布拉音卡哈尔江·阿比的热西提王路路
- 关键词:维吾尔语词干提取
- 基于深度神经网络的维吾尔文命名实体识别研究被引量:10
- 2019年
- 现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用BiLSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。
- 王路路王路路艾山吾买尔买合木提.买买提卡哈尔江.阿比的热西提
- 关键词:条件随机场
- 一种用于术语管理及抽取的分析方法
- 本发明公开了一种用于术语管理及抽取的分析方法,该方法包括如下步骤:S1.创建维吾尔语倒排索引;S2.输出创建好的维吾尔语倒排索引文件;S3.检查创建的维吾尔语倒排索引文件的准确性;S4.加密维吾尔语倒排索引;S5.检查加...
- 卡哈尔江·阿比的热西提米尔夏提·力提甫吐尔根·依布拉音阿里木·库尔班王路路买合木提·买买提吴浩
- 文献传递
- 结合单词-字符引导注意力网络的中文旅游文本命名实体识别被引量:6
- 2021年
- 传统基于词向量表示的命名实体识别方法通常忽略了字符语义信息、字符间的位置信息,以及字符和单词间的关联关系。提出一种基于单词-字符引导注意力网络(WCGAN)的中文旅游命名实体识别方法,利用单词引导注意力网络获取单词间的序列信息和关键单词信息,采用字符引导注意力网络捕获字符语义信息和字符间的位置信息,增强单词和字符间的关联性与互补性,从而实现中文旅游文本中命名实体的识别。实验结果表明,WCGAN方法在ResumeNER和TourismNER基准数据集上的F值分别为93.491%和92.860%,相比Bi-LSTM+CRF、Char-Dense等方法识别效果更好。
- 西尔艾力·色提艾山·吾买尔王路路王路路吐尔根·依布拉音买合木提·买买提
- 关键词:命名实体识别位置信息