您的位置: 专家智库
>
资助详情 >
国家自然科学基金(61262058)
国家自然科学基金(61262058) 作品数:16 被引量:99 H指数:7 相关作者: 珠杰 李天瑞 贾真 刘胜久 冶忠林 更多>> 相关机构: 西南交通大学 西藏大学 东北大学 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 长江学者和创新团队发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于模糊聚类的旅游推荐算法 2016年 在旅游领域中,旅游者常常在旅游前从互联网上获取所需信息,但是在线旅游业日益严重的信息过载现象,使得用户不能得到他们想要的个性化信息。传统的基于协同过滤的旅游推荐研究普遍都存在稀疏性和可扩展性等问题,基于知识的推荐研究有时因用户无法表达清楚他们的需求而无法得到满意的推荐。针对已有的旅游推荐算法存在的问题,提出了一种基于模糊聚类的旅游推荐算法,为用户推荐符合其需求和偏好的旅游产品。该算法利用标签构建用户偏好景点模型和景点特征属性模型,对数据集进行模糊聚类,同时提出新的相似度度量。在此基础上,组合基于内容和协同过滤技术进行混合推荐。实验结果表明,该算法能显著提高推荐系统的效率以及可扩展性和准确度。 张应辉 李雪关键词:个性化 标签 模糊聚类 藏文音节规则模型及应用 被引量:5 2013年 首先介绍藏文音节独特的构造方法,以及藏文字母的语音特性带来的藏文组合形式上的诸多限制。然后以藏文音节为研究对象,借助藏文语法规则,建立现代藏文音节的简化模型和相应的规则库,并介绍其应用领域。最后提出一种基于音节模型的的藏文音节自动拼写算法,并通过实验验证规则方法的有效性。 珠杰 李天瑞 格桑多吉 仁青诺布 乔少杰关键词:藏文音节 规则库 多领域自然语言问句理解研究 被引量:6 2017年 问句理解是问答系统的主要任务之一。现有的问句理解方法大多是针对简单句的,且侧重于某种句式结构的理解。提出一种多领域问句理解研究方法,其涉及领域包括人物类、电影类、音乐类、图书类、游戏类、应用类。首先基于CRF算法对问句进行分类和主体识别,然后使用谓词词典和句法分析识别出问句的谓词,最后提出一种谓词消歧方法来解决相同问句具有不同表达方式的问题。实验结果表明,在封闭测试中,所提方法的问句分类和主体识别的平均F-measure值分别为93.88%和92.44%,谓词识别和问句理解的平均准确率分别为91.03%和81.78%。因此,所做的工作基本能满足问句理解的需求。 冶忠林 贾真 尹红风关键词:问答系统 问句分类 基于词向量的藏文词性标注方法研究 被引量:10 2017年 藏文词性标注是藏文信息处理的基础,在藏文文本分类、自动检索、机器翻译等领域有广泛的应用。该文针对藏文语料匮乏,人工标注费时费力等问题,提出一种基于词向量模型的词性标注方法和相应算法,该方法首先利用词向量的语义近似计算功能,扩展标注词典;其次结合语义近似计算和标注词典,完成词性标注。实验结果表明,该方法能够快速有效地扩大了标注词典规模,并能取得较好的标注结果。 郑亚楠 珠杰关键词:藏文 词性标注 基于SDAs的人物关系抽取方法研究 被引量:4 2017年 针对人物关系语料缺乏的问题,研究了基于互动百科的自动标注方法;针对传统浅层机器学习模型特征表示能力差的问题,提出了基于深度神经网络模型SDAs的人物关系抽取方法。重点研究了多个特征组合的人物关系抽取效果以及不同深度SDAs网络的人物关系抽取效果。根据实验分析,F系数可达到73.75%。 珠杰 洪军建关键词:社会网络 分块主成分分析在文本特征抽取中的应用 被引量:1 2015年 为了降低原始文本特征空间的维数,获得较高的分类精度与执行效率,对多种文本特征提取方法进行了研究,如卡方、互信息、信息增益、主成分分析(PCA)等。针对传统文本特征抽取方法存在的精度不高、执行效率低等问题,提出了一种基于分块主成分分析的文本特征提取算法。该算法通过K-均值词聚类进行特征词分块,再对各分块实施PCA操作抽取出更具代表性的特征项,最后使用支持向量机分类器对文本进行分类。实验结果表明:分块主成分分析的分类指标F_(β=1)达到了88.7%,执行时间为353 s,能够有效提高文本分类精度与执行效率。 洪军建 珠杰关键词:主成分分析 分块 特征抽取 词聚类 基于条件随机场的藏文人名识别技术研究 被引量:12 2016年 文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词和作格助词特征在藏文人名识别上能够起到积极的作用;2)不同特征窗口大小对人名识别有一定影响;3)利用CRF识别藏文人名F1值能够达到80%左右,但由于藏文两字人名的高歧义性,目前还达不到与其他语言相近的识别效果. 珠杰 李天瑞 刘胜久基于无监督学习的部分-整体关系获取 被引量:9 2014年 针对面向中文自由文本的部分-整体关系抽取问题,提出一种基于无监督学习的方法.首先提出子模式提取算法,从领域文本集中获取概念对和概念对所在上下文模式,利用概念对和概念对上下文模式建立分布式语义模型;然后采用协同聚类算法将具有相同语义关系的概念对聚合成簇,通过训练L1正则化逻辑回归模型提取簇的特征并得到代表每个簇语义关系的概念对上下文模式;最后根据模式识别表达部分-整体关系的簇,从而获取部分-整体关系概念对.实验结果表明,该方法取得较好的性能,F度量达到68.97%,优于传统聚类方法(55.77%)和模式匹配方法(61.95%). 贾真 何大可 尹红风 李天瑞关键词:本体 无监督学习 协同聚类 带权超网络的度量方法及其性质 被引量:3 2019年 超网络是较通常意义上的复杂网络更为复杂的网络,该网络的每一条超边能连接任意多个节点的特性使其比复杂网络能更好地描述真实世界中的复杂系统。针对现有超网络研究中对超网络度量方法的缺陷与不足,提出了一种超网络度量方法--超网络维数(HD),即为所有超边包含的节点权重之和与对应超边权重乘积和的对数值和节点权重之和与超边权重之和乘积对数值的比值的两倍。超网络维数可以应用于节点权重与超边权重为正实数、负实数、纯虚数,乃至复数等多种不同数值类型的带权超网络中。最后给出了超网络维数的若干性质。 刘胜久 李天瑞 李天瑞 珠杰关键词:复杂网络 超图 超网络 分形维数 基于语义扩展的短问题分类 被引量:16 2015年 问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1 365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。 冶忠林 杨燕 贾真 尹红风关键词:主题模型 搜索引擎 问答系统