姚建民
- 作品数:107 被引量:317H指数:7
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏省高校自然科学研究项目江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学经济管理更多>>
- 融合高频属性信息的属性抽取研究被引量:2
- 2023年
- 属性抽取是细粒度情感分析的子任务之一,其目标是从评论文本中抽取用户所评价的属性。在特定领域中,某些属性可能会频繁出现在不同的评论文本中,称之为高频属性。高频属性具有较高的领域表征能力,易被监督学习模型感知。相对地,低频属性出现频率低,可供训练的样本总量较为稀疏,使得神经网络模型难以充分学习相应的语言现象,从而使测试阶段的低频属性抽取难度较高。由于低频属性经常与高频属性同时出现在局部文字片段之中,该文根据这一特点,提出一种融合高频属性信息的属性抽取方法:跟踪和记录模型识别的高频属性,使用卷积神经网络和注意力机制编码高频属性的上下文信息,并通过门控机制融入其他词项的表示学习过程中,辅助低频属性的识别。该文在国际语义评测大会2014和2016提供的笔记本电脑及餐馆领域数据集上进行了实验,相比于基线模型,该文方法在这两个英文数据集上F1值分别提升了2.33和1.44个百分点,并且总体性能高于现有前沿技术。
- 潘雨晨尉桢楷洪宇徐庆婷姚建民
- 关键词:属性抽取
- 苏州人工智能关键技术联合攻关的研究与对策被引量:1
- 2022年
- 人工智能技术为制造、医疗、生物、金融等多个产业赋能,在苏州经济转型升级中发挥重要作用,联合攻关是相关产业技术开发的高效率路径。在分析关键技术联合攻关的组织模式和运行机制的国内外案例和经验基础上,立足苏州本地实际,分析苏州科技政策、科技立项以及科技成果中联合攻关的现实要求和支撑作用。基于国内外经验和苏州发展现实,梳理苏州人工智能关键企业,提出依托龙头企业、强化应用牵引、突破关键技术、探索应用场景的苏州人工智能关键技术联合攻关的对策建议。
- 徐云娟金璐钰姚建民
- 关键词:人工智能共性技术
- 一种查询意图边界检测方法研究被引量:1
- 2017年
- 针对一个特定的查询意图,用户往往需要提交多次查询请求。有效地识别连续查询请求之间的意图变化边界,能够帮助检索系统更好地理解用户完整查询意图,以提高查询推荐及查询扩展的效果,并能够辅助个性化检索中用户模型的建立。在充分分析前人研究的有效特征基础上,提出了基于主题相似度检测意图边界的方法,并在SVM及CRF模型上都取得一定的提升。实验结果显示,所提方法的最优性能比Baseline系统F值提高了2%。
- 王凯洪宇邱盈盈王剑姚建民周国栋
- 关键词:信息检索查询意图
- 机器翻译发展态势和质量分析被引量:2
- 2022年
- 机器翻译是通过特定的计算机程序将一种语言信息翻译为另一种语言,是人工智能研究核心任务之一,涉及语言理解、语法和语义信息获取、语言生成等多种语言信息处理的过程。在分析机器翻译任务、发展历程和现状基础上,通过翻译实例揭示了机器翻译的难点问题和质量门槛,展望了未来发展的趋势。
- 金璐钰徐云娟姚建民
- 关键词:机器翻译人工智能翻译质量
- 基于语义依存线索的事件关系识别方法研究被引量:15
- 2013年
- 以事件为基本语义单元,基于事件的篇章结构信息及语义特征,通过分析事件的语义依存关系及其在演化过程中的语义依存规律,提出基于语义依存线索的事件关系识别方法,实现事件语义关系的浅层检测:判定事件之间是否存在语义关系。实验结果显示,相比于传统的基于语义相似度的识别方法,新提出的基于事件语义依存线索的事件关系识别方法获得了5%的性能提升。
- 马彬洪宇杨雪蓉姚建民朱巧明
- 关键词:依存分析
- 基于相关子主题消解的悖向重排序方法研究
- 悖向重排序是一种面向个性化信息检索的新型排序策略,其借助相悖于查询意图的描述结构,实现倔强非相关反馈的识别和降解。目前,悖向重排序研究中的关键问题之一是如何建立极大区别于查询意图且最具代表性的悖向意图描述。针对这一问题,...
- 华松洪宇张剑峰姚建民朱巧明
- 关键词:信息检索查询意图文本分割
- 文献传递
- 基于双向注意力机制的图像描述生成被引量:4
- 2020年
- 结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的"翻译"能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU4分值平均提升0.9,CIDEr值平均提升2.4。
- 张家硕洪宇李志峰姚建民朱巧明
- 自然语言处理的技术和产业应用现状与趋势分析被引量:6
- 2019年
- 自然语言处理是人工智能产业发展的核心技术之一,是人工智能、互联网企业的基础技术。探讨了自然语言处理的基础技术和基本应用,以机器翻译为例分析了目前系统存在的质量不足,揭示了现阶段自然语言处理面临的典型问题,浅析自然语言处理产业应用中的现状及未来发展趋势。
- 葛运东陈洪梅姚建民
- 关键词:自然语言处理机器翻译语义理解
- 基于门控机制多模态信息融合的图像描述翻译
- 2024年
- 图像描述翻译是给定图像和图像对应某一语言的描述,采用神经网络以端到端方式融合图像和文本两种模态信息,利用翻译技术为图像描述生成目标语言的任务。传统图像描述翻译,在将源语言翻译成目标语言时,借助图像中的重要特征优化翻译过程。翻译过程中,目标词的生成依赖于源语言上下文和目标语言上下文信息。通过观察发现,源语言上下文偏于影响翻译结果的充分性和忠实度,而目标语言上下文偏于影响翻译结果的流畅性和衔接度。由于缺少有效机制来调节两种上下文信息的贡献度,翻译模型会生成流畅但不充分或者充分但不流畅的句子。针对以上问题,该文提出一种基于门控机制多模态信息融合的解码方法,用于优化现有图像描述翻译模型。该文模型通过源上下文门控调整图像特征和每个源语言词的重要度,过滤掉图像中不相关的特征;通过目标上下文门控动态调整源语言上下文和目标语言上下文对翻译结果的贡献度,从而有效提高翻译结果的充分性和流畅性。在Multi30k数据集上进行实验,验证了上述方法的有效性,在Multi30k-16英德和英法以及Multi30k-17英德和英法测试集上,BLEU-4值对比基准系统分别提升了1.3、1.0、1.5和1.4个百分点。
- 李志峰徐旻涵洪宇姚建民周国栋
- 低频词的中文词性标注研究被引量:3
- 2011年
- 利用最大熵模型深入探讨了中文词性标注问题。针对低频词的性能差问题,在原有常用特征的基础上,提出了新颖的低频词特征,实验表明,低频词特征的添加能大幅度地提高低频词在测试集的标注准确率,在宾州树库2.0上的实验显示,其准确率从82.93提高到了87.54。在传统的基于句子的词性标注基础上,提出了基于篇章的词性标注,取得了不错的结果。最后,分析了词性标注结果对句法分析性能的影响,在宾州树库2.0上的实验显示,低频词特征和基于篇章的策略使得整个的词性标注准确率和句法分析F1值分别提高了0.60和0.97,说明了词性标注中低频词处理的重要性。
- 仲其智姚建民
- 关键词:最大熵模型句法分析