孙媛
- 作品数:26 被引量:18H指数:4
- 供职机构:中央民族大学更多>>
- 发文基金:国家自然科学基金国家语委科研项目更多>>
- 相关领域:自动化与计算机技术文化科学语言文字更多>>
- 一种小学课外图书分级阅读评价和推荐方法及系统
- 本发明公开了一种小学课外图书分级阅读评价和推荐方法及系统;其中,该方法包括以下步骤:从课外图书中选取了小学三个学段适用图书,构建小学课外阅读图书语料库;从图书多样性,图书复杂度,图书衔接性三个综合特征出发,分析、研判后得...
- 孙媛梁家亚
- 基于远程监督的藏文实体关系抽取
- 关系抽取任务是对句子中的实体对进行关系分类.远程监督用于关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,因而可以用在缺少训练语料的藏文领域.但是基于远程监督的实体关系抽取还存在...
- 王丽客孙媛夏天赐
- 关键词:藏文实体关系抽取语言模型
- 藏语实体关系抽取方法
- 本发明涉及一种藏语实体关系抽取方法,该方法包括以下步骤:从藏汉文本语料信息中抽取训练语料;构建藏语词向量模型;通过藏语词向量模型获得实体关系特征向量;将实体关系特征向量作为输入,构建基于神经网络的实体关系分类模型,并对实...
- 孙媛
- 文献传递
- 少数民族语言分词技术评测数据集MLWS2021被引量:1
- 2022年
- 依据蒙古文、藏文和维吾尔文词汇的构词规律和特点,制定适合计算机信息处理的蒙古文、藏文和维吾尔文分词评测标准,构建蒙古文、藏文和维吾尔文的分词标注语料,形成标准评测数据集(MLWS2021),为解决自动分词、词性标注、信息检索、语料库构建等研究课题提供依据。MLWS2021共包含2.5万句藏文、6.5万句蒙古文、6.5万句维吾尔文。本评测数据集将面向社会,提供免费评测服务,逐步建成权威的少数民族语言分词技术评测平台,推动少数民族语言信息处理技术的发展。
- 赵小兵高璐高定国高定国米尔阿迪力江·麦麦提刘洋刘洋才智杰
- 关键词:少数民族语言
- 基于联合模型的藏文实体关系抽取方法研究被引量:9
- 2018年
- 从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方案:(1)针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高。(2)藏文是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果证明了方法的有效性。(3)该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%~40%。
- 夏天赐孙媛
- 关键词:词性标注
- 基于Unicode的跨平台蒙古文显示及智能输入方法
- 本发明专利申请涉及在LINUX系统的GNOME桌面系统平台上显示蒙古文的方法,其在GNOME桌面系统的处理文字语言的Pango系统中建立蒙古文处理系统引擎,向实施文字语言处理的Pango系统注册蒙古文处理系统引擎名,形成...
- 赵小兵田寄远孙媛闫晓东王志娟李叶青李钢
- 构建藏语问答语料库的方法及装置
- 本发明提供了一种构建藏语问答语料库的方法及装置,属于大数据处理领域,本发明提供的方法包括:选择一个藏语三元组实体作为中心词实体,获取与中心词实体相关的所有三元组;将所有三元组中所有实体,映射成实体与标签的对应关系,根据对...
- 孙媛夏天赐
- 一种低资源语言问答语料库生成方法
- 本发明涉及一种低资源语言问答语料库生成方法,该方法包括以下步骤:采用生成对抗网络生成问答语料库,通过最大似然估计对随机问句序列进行初始化,然后送入生成器准循环神经网络中产生问题,同时优化强化学习中蒙特卡洛搜索加速模型迭代...
- 孙媛夏天赐
- 文献传递
- 藏语实体知识信息抽取方法
- 本发明涉及一种藏语实体知识信息抽取方法,所述方法包括:从藏汉文本语料信息中,抽取藏汉可比语料信息;从所述藏汉可比语料信息中,抽取出实体等价对;从所述实体等价对中,抽取出藏汉跨语言实体关系;从所述的藏汉跨语言实体关系中,抽...
- 孙媛
- 一种面向小学藏语文阅读问题自动生成的服务系统
- 本发明涉及一种面向小学藏语文阅读问题自动生成的服务系统,该系统包括藏语阅读语料库构建模型和藏文阅读文本问题生成模型;其中,藏语阅读语料库构建模型,通过提取小学藏语文章特征数据,并设计混合的多策略文本筛选模型,得到藏语阅读...
- 孙媛陈安东