黄萱菁
- 作品数:123 被引量:1,399H指数:17
- 供职机构:复旦大学计算机科学技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划上海市科委科技攻关项目更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>
- 基于双通道图神经网络的小样本文本分类被引量:5
- 2021年
- 小样本文本分类任务同时面临两个主要问题:(1)样本量少,易过拟合;(2)在元学习框架的任务形式下,监督信息被进一步稀疏化。近期工作中,利用图神经网络建模样本的全局信息表示(full context embedding)成为小样本学习领域中一种行之有效的方法,但将其迁移至小样本文本分类任务,由于文本多噪声,且特征易混淆,图神经网络往往出现过度平滑问题(over-smoothing)。该文提出了一种双通道图神经网络,在建模样本的全局特征的同时,充分利用标签传播机制,通过共享两通道的信息传播矩阵使得监督信息有效约束了图神经网络迭代过程。与基线的图神经网络相比,该方法在FewRel数据集上平均取得了1.51%的准确率提升;在ARSC数据集上取得了11.1%的准确率提升。
- 王阳刚邱锡鹏邱锡鹏黄萱菁李云辉
- 关键词:文本分类
- 一种适用于大规模网页分类的快速算法
- 2012年
- 网页分类中存在类别多、训练样本少等问题,一般分类器训练应用效果不佳。为了解决这个问题,提出基于类中心的统计学习方法。在较少人工标注网页的训练集情况下,此方法能取得很好的分类性能并且大幅度加快训练时间,并可以通过加入网页层次目录信息提升推理速度。在第一届LSHTC评测数据集上进行实验,结果表明:基于类中心的统计学习方法拥有较快的训练以及推理速度,并且在正确率上有很强的竞争力。
- 缪有栋邱锡鹏黄萱菁
- 关键词:文本分类统计学习
- 自底向上和自顶向下结合的句法分析
- 把自底向上、自顶向下和双向分析结合起来,文献[1]提出了双向策略标记上下文无关文法(BSCFG),并指出了它的不完备性,即基于BSCFG的分析器无法分析所有合法的句子.本文提出了一种使不完备的BSCFG完备的规范化算法,...
- 周雅倩黄萱菁吴立德
- 关键词:上下文无关文法
- 文献传递
- 利用未标注语料改进实体名识别性能
- 本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。利用这些在任何语言的文本上都极易获得的特征,我们构建了一个基准系统。在此基础上,我们在未标注语料上抽取出现的实体名作为辅助的训练语料,再将这些...
- 陈宁昱周雅倩黄萱菁吴立德
- 关键词:实体名识别最大熵
- 文献传递
- 一种新的句子相似度度量及其在文本自动摘要中的应用
- 本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于它不仅考虑句子中的uni-gram,还考虑了bi-gram 和tri-gram,实验证明这种相似度计算方法是有效的;同时本文还提出了一种新的,利用...
- 张奇黄萱菁吴立德
- 关键词:向量模型相似度计算
- 文献传递
- 文本情感倾向分析被引量:61
- 2011年
- 近年来,文本情感倾向研究受到研究界和企业界越来越多的关注,成为了自然语言处理、信息检索、数据挖掘等领域的研究热点之一。随着研究的不断深入,大量情感倾向分析的新方法、新问题也不断涌现。该文重点对文本情感倾向研究的前沿进展进行概括和分析。首先,结合近年来的研究成果,对文本情感倾向分析的两类主要问题进行了定义,并归纳了不同的倾向性表示方法。接下来,对倾向性分类、倾向性信息抽取、语料库与评测以及倾向性分析应用等方面的研究现状进行介绍。最后,总结了情感倾向性分析技术并对未来的发展进行了展望。由于国内对于文本情感倾向分析的研究起步较早,在一些问题的研究上处于国际前沿水平,已经发表了许多高水平论文,该文也将对此加以介绍。
- 黄萱菁张奇吴苑斌
- 一种基于谱聚类的共指消解方法被引量:6
- 2009年
- 该文针对中文共指消解的具体任务,提出采用谱聚类的方法进行共指消解。首先,在待消解项对上抽取特征,使用最大熵模型判断两个待消解项存在共指关系的概率;然后,以此概率值作为相似度进行谱聚类;最后,得到若干实体,实现共指消解。该方法能从全局的角度进行实体划分,有效地提高准确率。在ACE 2007标准数据集上的Diagnostic实验结果表明该方法的ACE Value比baseline方法有了2.5%的提高,Unweighted Precision值有5.4%的提高。
- 谢永康周雅倩黄萱菁
- 关键词:计算机应用中文信息处理共指消解谱聚类最大熵模型
- 基于依赖关系的定义类问题回答系统
- 2009年
- 定义句模板和关联词向量作为候选定义句选择的常用特征,前者确定定义的表达形式,后者确定定义的叙述内容.目前,大多数定义类问题回答系统中都是根据问题Target及其周边词之间的相对位置关系来提取定义句模板和关联词.在这种基于位置关系的基础上提出了基于依赖关系的定义句模板和关联词抽取方法,然后将这些特征应用到改进的在线算法MIRA(Margin infused relaxed algorithm),从而实现对候选定义句子的排序.这种改进的MIRA算法能够根据学习进程自动调整约束条件,从而提高算法的收敛速度与性能.
- 曹均阔黄萱菁
- 大规模文本逐次二分的层次聚类方法
- 本发明属文本信息技术领域,具体涉及一种大规模文本的聚类方法。其核心内容有图嵌入和聚类。其步骤包括:文本的向量空间表示;两两文本的相似度计算;将图嵌入到维空间,并用K-means或层次聚类算法,将文本聚两类;并逐次二分,直...
- 黄萱菁赵林钱线
- 文献传递
- 中文评论挖掘中的主观性关系抽取
- 本文提出了一种基于机器学习的方法来对中文评论进行主观性关系抽取,即抽取出表达主观性意义的评价词与其相对应的评价对象。本文所要解决的关系抽取不同于以往传统的任务,我们要抽取的是带有主观性的关系,即要带有评价信息。我们的方法...
- 章剑锋张奇吴立德黄萱菁
- 关键词:关系抽取最大熵
- 文献传递