广东外语外贸大学语言工程与计算实验室 作品数:75 被引量:244 H指数:8 相关机构: 上海外国语大学贤达经济人文学院 河南科技学院人文学院中文系 河南科技学院人文学院 更多>> 发文基金: 国家自然科学基金 教育部人文社会科学研究基金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 经济管理 更多>>
基于自适应稀疏邻域重构的无监督主动学习算法 被引量:2 2018年 在很多信息处理任务中,人们容易获得大量的无标签样本,但对样本进行标注是非常费时和费力的。作为机器学习领域中一种重要的学习方法,主动学习通过选择最有信息量的样本进行标注,减少了人工标注的代价。然而,现有的大多数主动学习算法都是基于分类器的监督学习方法,这类算法并不适用于无任何标签信息的样本选择。针对这个问题,借鉴最优实验设计的算法思想,结合自适应稀疏邻域重构理论,提出基于自适应稀疏邻域重构的主动学习算法。该算法可以根据数据集各区域的不同分布自适应地选择邻域规模,同步完成邻域点的搜寻和重构系数的计算,能在无任何标签信息的情况下较好地选择最能代表样本集分布结构的样本。基于人工合成数据集和真实数据集的实验表明,在同等标注代价下,基于自适应稀疏邻域重构的主动学习算法在分类精度和鲁棒性上具有较高的性能。 吕巨建 赵慧民 陈荣军 李键红基于表情符号的情感词典的构建研究 被引量:12 2019年 情感词典是文本情感分析的基础资源。利用表情符号明显的情感表达作用,提出一种基于种子表情符和SO-PMI算法结合的情感词典构建方法。选择44个情感明显、内容丰富的表情符号词作为种子情感集合。构建过程融合了TF-IDF值在词汇重要程度的度量作用,有效选择候选情感词集。基于SO-PMI算法,在大量语料中计算候选情感词汇与种子表情符号之间的情感共现信息,进而确定词汇的情感权值和极性。在500万条微博语料中,计算并构建情感词典SentiNet,共有情感词汇13814个,其中正向词汇6885个,负向词汇6929个。将SentiNet应用于微博文本情感分析任务中,实验结果表明,SentiNet能实现情感词的情感表示,并可应用于大规模的微博语料情感分析任务。该方法融合了情感词的重要度衡量优势和种子表情符号集的情感表达优势,证明了获得的情感权值有效。 林江豪 顾也力 顾也力 阳爱民 陈锦关键词:情感词典 TF-IDF 基于联合稀疏模型的黄瓜病害自动识别 被引量:4 2019年 提取黄瓜7种叶部病害图像颜色、形状和纹理的共26种特征进行研究,发现不同形式的特征在用同一样本集合稀疏表示时,它们的稀疏系数有着相似的结构.通过引入联合稀疏模型构造方程,对这一规律进行数学描述,使用加速近端梯度法求解联合稀疏系数,最后借助重构误差来实现病害识别.试验表明,这一算法的正确识别率达到90.67%,较稀疏表示分类算法提高5.7%,计算消耗时间7.5 s,较稀疏表示分类算法缩短4.3 s. 吴亚榕 李键红关键词:多任务学习 图像分割 特征抽取 面向微博的社会情绪词典构建及情绪分析方法研究 被引量:18 2015年 该文旨在探索一种面向微博的社会情绪词典构建方法,并将其应用于社会公共事件的情绪分析中。首先通过手工方法建立小规模的基准情绪词典,然后利用深度学习工具Word2vec对社会热点事件的微博语料通过增量式学习方法来扩展基准词典,并结合HowNet词典匹配和人工筛选生成最终的情绪词典。接下来,分别利用基于情绪词典和基于SVM的情绪方法对实验标注语料进行情绪分析,结果对比分析表明基于词典的情绪分析方法优于基于SVM的情绪分析方法,前者的平均准确率和召回率比后者分别高13.9%和1.5%。最后运用所构建的情绪词典对热点公共事件进行情绪分析,实验结果表明该方法是有效的。 蒋盛益 黄卫坚 蔡茂丽 王连喜关键词:社会情绪 词典 情绪分析 基于种子词的微博表情符情感倾向判定方法 被引量:5 2017年 情感倾向明显的表情符,容易通过人工进行标注。但是对于情感倾向不明显的表情符,多人手工的标注结果往往难以达成一致。因此,提出一种利用种子词自动判定表情符情感倾向的方法。该方法利用少量种子表情符自动标注情感倾向比较明显的表情符,生成表情符标注集;对于情感倾向不明显的表情符,利用种子情感词和已得到的表情符标注集构建模型,实现其情感倾向的自动判定。实验结果表明,本文方法在微博表情符情感倾向的自动判定上有很好的效果。 王伟 周咏梅 阳爱民 林江豪 陈昱宏 曾文俊关键词:情感分类 以应用能力培养为导向的数字图像处理课程改革研究 被引量:3 2021年 针对目前数字图像处理课程教学中存在的教材内容固化陈旧、教学重理论轻应用、考核形式与课程性质和教学目标不一致等问题,提出以激发学习兴趣和培养应用能力为导向的教学改革方案,包括教学内容的调整优化、混合教学模式的创新应用、项目驱动式的课程实验设计以及能力测试为主的考核方式改革四个方面.实践表明,该方案能够克服传统教学方法所存在的弊端、提高学生的学习兴趣和学习效果,有利于培养学生的实践应用能力. 吕巨建 赵慧民 陈荣军 战荫伟 李键红关键词:数字图像处理 应用能力培养 教学改革 法律文本中表条件“的”字结构的英译——基于《民法通则》汉英平行文本的考察 被引量:5 2019年 法律文本中有一种表条件"的"字结构,该文对其英译进行语法标注与统计分析。考察《民法通则》的汉英平行文本,确定"的"字结构的英语对应单位。统计"的"字结构的英语对应单位,发现:1.状语远多于定语(85.40%>14.60%);2.限定式远多于非限定式(87.59%>12.41%),限定式中一般现在时占绝对多数(99.17%),非限定式以介词短语为多(64.71%);3.状语引导词以if为多(86.32%),定语引导词以who为多(60.00%)。研究认为,法律文本中此类"的"字结构是句而非短语,而其中的"的"是表条件的篇章连接词。 冯文贺 郭海芳 杨华关键词:法律文本 汉英翻译 基于把关人行为的微博虚假信息及早检测方法 被引量:18 2016年 目前微博已成为人们获取信息和发布信息的一个重要平台,然而微博也正成为虚假信息滋生和泛滥的温床.现有的方法主要基于分类算法来识别虚假信息,这些方法不能及早发现微博上流行的虚假信息.为了减少虚假信息对公众的影响,使微博在人们的生产和生活中发挥更积极的作用,文中提出一种基于把关人行为的微博虚假信息及早检测方法.该方法利用模型状态持续时间概率为Gamma分布的隐半马尔可夫模型来刻画信息转发者和评论者对流行的真实信息的把关行为,基于此来及早识别微博上流行的虚假信息.该方法分为模型训练和虚假信息检测两个阶段,在虚假信息检测阶段,计算每条信息在传播过程中产生的观测序列相对于模型的平均对数似然概率,实时更新每条信息的可信度,从而及早发现虚假信息,降低虚假信息的危害.使用采集的新浪微博数据集和Twitter数据集对文中的方法进行了测试,实验结果表明了该方法的有效性. 谢柏林 蒋盛益 周咏梅 谢逸 李霞关键词:虚假信息 把关人 隐半马尔可夫模型 社会媒体 社交网络 数据挖掘 汉语篇章小句关联结构的表示与识别 被引量:3 2020年 将篇章结构表示为小句关联结构,与修辞结构等层次化篇章结构模式相比,可以有效地刻画非连续和跨层级的小句之间的直接语义关联。首先,提出篇章小句关联结构的形式表示、判断准则和形式限制,并进行人工标注。然后,对汉语篇章小句关联结构进行自动识别。在自建汉语篇章小句关联结构语料库上,基于分类模型,设计连接词和词汇等分类特征,得到的最佳识别准确率达92.70%。实验结果表明,语料整体取样比独立取样取得的去环效果好;词汇、小句距离及句域等分类特征对识别的贡献较大;远距离和跨大句是小句关联识别的难点,但相邻小句和同一大句内的小句对的不相关识别难度更大。 冯文贺 陈伊琳 任亚峰 任函关键词:篇章结构 修辞结构 基于概率潜在语义分析的群体情绪演进分析 被引量:4 2015年 针对群体情绪演进分析中话题内容挖掘及其对应群体情绪分析两个层面的难题,提出了一种基于概率潜在语义分析(PLSA)模型的群体情绪演进分析方法。该方法首先利用PLSA模型抽取时间序列上的子话题,挖掘话题内容随时间的演进规律;再利用句法关系和情感本体库,抽取与话题内容相匹配群体情绪单元,计算情绪单元的强度,形成情绪特征向量;最后,对各子话题下的情绪强度进行求和,细粒度分析子话题和事件的整体群体情绪,深入挖掘群体情绪演进规律,并将群体情绪量化和可视化。在话题情绪单元抽取过程中,引入了句法规则和情感本体库,更细粒度地抽取情绪单元,并提高了话题内容与情绪单元匹配的准确性。实验结果表明,该模型能够实现话题内容及其群体情绪按时序特征的演进分析,验证了所提方法的有效性。 林江豪 周咏梅 阳爱民 陈昱宏 陈晓帆关键词:情绪分析