中国科学院大学人工智能学院
- 作品数:224 被引量:1,154H指数:17
- 相关机构:中国科学院计算技术研究所西安交通大学软件学院中国科学技术大学信息科学技术学院更多>>
- 发文基金:国家自然科学基金中国科学院战略性先导科技专项北京市自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信医药卫生经济管理更多>>
- 面向轻量级深度伪造检测的无数据模型压缩被引量:1
- 2023年
- 目的尽管现有的深度伪造检测方法已在各大公开数据集上展现出了极佳的真伪鉴别性能,但考虑到运行过程中耗费的巨大内存占用和计算成本,如何实现此类模型的在线部署仍是一个具有挑战性的任务。对此,本文尝试利用无数据量化的方法开发轻量级的深度伪造检测器。方法在保证准确率损失较少的前提下,对提前训练好的高精度深度伪造检测模型进行压缩处理,不再使用32 bit浮点数表示模型的权重参数与激活值,而是将其全部转化为低位宽的整型数值。此外,由于人脸数据涉及隐私保护问题,本文中所有的量化操作都是基于无数据场景完成的,即利用合成数据作为校准集来获取正确的激活值范围。这些数据经过不断优化迭代,完美匹配了存储在预训练模型各批归一化层中的统计信息,与原始训练数据具备非常相似的分布特征。结果在两个经典的人脸伪造数据集Face Forensics++和Celeb-DF v2上,4种预先训练好的深度伪造检测模型Res Net50、Xception、EfficientNet-b3和MobileNetV2经过所提方法的量化压缩处理后,均能保持甚至超越原有的性能指标。即使当模型的权重和激活值被压缩为6 bit时,所得轻量级模型的最低检测准确率也能达到81%。结论通过充分利用蕴含在深度伪造检测预训练模型中的有价值信息,本文提出了一种基于无数据模型压缩的轻量级人脸伪造检测器,该检测器能够准确高效地识别出可疑人脸样本的真实性,与此同时,检测所需的资源和时间成本大幅降低。
- 卓文琦李东泽王伟董晶
- 图像异常检测研究现状综述被引量:25
- 2022年
- 图像异常检测是计算机视觉领域的一个热门研究课题,其目标是在不使用真实异常样本的情况下,利用现有的正常样本构建模型以检测可能出现的各种异常图像,在工业外观缺陷检测、医学图像分析、高光谱图像处理等领域有较高的研究意义和应用价值.本文首先介绍了异常的定义以及常见的异常类型.然后,本文根据在模型构建过程中有无神经网络的参与,将图像异常检测方法分为基于传统方法和基于深度学习两大类型,并分别对相应的检测方法的设计思路、优点和局限性进行了综述与分析.其次,梳理了图像异常检测任务中面临的主要挑战.最后,对该领域未来可能的研究方向进行了展望.
- 吕承侃沈飞张正涛张正涛
- 关键词:计算机视觉神经网络
- GPT-4对多模态大模型在多模态理解、生成、交互上的启发被引量:10
- 2023年
- 对话式聊天机器人ChatGPT以近乎摧枯拉朽的气势席卷社会,拨开了通用人工智能的曙光。ChatGPT的升级版GPT-4是个多模态大模型,它从单调的文本交互,升级为可以接受文本与图像组合的多模态输入,相比传统的单模态大模型,多模态大模型更加符合人类的多渠道感认知方式,能够应对更加复杂丰富的环境、场景和任务。GPT-4表明在多模态大模型中引入基于人类知识的自然语言理解与生成能力能够带来模型在多模态理解、生成、交互能力上的巨大提升。本文将介绍多模态大模型的概念、关键技术、近期进展和应用场景、GPT-4的技术特性,并重点探讨以GPT-4为代表的大语言模型对构建多模态大模型的几点启发。具体而言,将讨论如何充分利用大语言模型的语言能力,在多模态大模型的构建中,借助语言的帮助更好地感知理解世界、创作生成内容、与人和环境交互。
- 刘静郭龙腾
- 机器人增量学习研究综述
- 2024年
- 机器人的应用场景正在不断更新换代,数据量也在日益增长.传统的机器学习方法难以适应动态的环境,而增量学习技术能够模拟人类的学习过程,使机器人能利用旧知识来加快新任务的学习,在不遗忘旧技能的前提下学习新的技能.目前对于机器人增量学习的相关研究仍然较少,对此,主要介绍机器人增量学习研究进展.首先,对增量学习进行简介;其次,从参数和模型的角度出发,将当前机器人增量学习主流方法分为变参数方法、变模型方法、混合方法3类,分别对每一类进行论述,并给出相应的增量学习技术在机器人领域中的应用实例;然后,对机器人增量学习中常用的数据集和评价指标进行介绍;最后,对增量学习未来的发展趋势进行展望.
- 马旭淼徐德
- 关键词:机器人
- 一种基于双目视觉的卫星相对位姿测量方法被引量:1
- 2020年
- 卫星位姿测量技术是与航天飞行器相关的空间操控活动中一项核心的支撑技术.考虑到太空环境中光源单一,且卫星表面一般为反光材质,提出了一种基于双目视觉的卫星相对位姿测量方法.在卫星面板标志点可见时,本文方法利用卫星对接环外环和卫星面板标志点测量卫星相对位姿.在卫星距离对接目标较近,无法观测到卫星面板标志点时,本文方法利用ORB特征点匹配测量位姿.为了增强鲁棒性,本方法还利用光流追踪法和卡尔曼滤波器优化位姿测量的结果.仿真实验结果表明,本方法能够在光源单一背景下对任意种类的卫星在对接过程中进行准确的位姿测量.
- 邓爽王波董秋雷
- 关键词:卫星对接双目视觉位姿测量
- 面向群体行为识别的注意力池化机制被引量:5
- 2021年
- 视频行为识别近年来逐渐成为计算机视觉领域学者的研究热点,按照识别对象进行划分,视频行为识别任务可分为个体行为识别与群体行为识别.本文聚焦于群体行为识别,识别与分析视频场景中整体人群的行为.已有的群体行为识别方法大多采用多层时序网络模型,学习得到表征时序变化的个体行为特征并对其进行聚合形成群体行为特征.但是,在个体特征聚合过程中,以往方法未能有效考虑个体对群体行为贡献程度的差异性,影响识别性能.为此,本文提出一种针对个体行为特征聚合的注意力池化机制,并依此建立了新型群体行为识别模型,以自底向上的方式同时实现个体行为与群体行为分层识别.首先利用卷积神经网络提取视频中人体图像区块的个体静态特征,并将其作为多层递归神经网络时序模型的输入,从而得到个体动态特征.随后通过注意力池化机制对个体特征完成聚合,得到相应的群体行为特征;最后依托个体、群体行为特征同时完成个体行为与群体行为的识别.未验证所提方法的有效性,本文依托广泛使用的The Volleyball Dataset数据集上开展了一系列实验验证.结果显示,本文所提出的模型取得了较好的分类准确率,分类性能优于当前先进模型.
- 李定张文生
- 支持隐私保护的社交网络信息推荐方法被引量:4
- 2020年
- 针对社交网络信息推荐中的信息传播带来隐私泄露的问题,结合信息传播模型,提出了一种支持隐私保护的社交网络信息推荐方法,通过好友的兴趣度、熟悉度和兴趣相似度推测用户兴趣,进行文本匹配和推荐候选集排序;通过个性化隐私偏好设置允许用户设置受限访问用户列表,并使用隐私保护方法计算信息传播至黑名单用户的概率,设置隐私泄露阈值对黑名单用户访问隐私博文的概率进行控制,达到信息推荐中保护用户隐私的目的。实验结果表明,所提方法可以在保证推荐效果的同时更好地保护用户隐私。
- 张超梁英梁英
- 关键词:社交网络信息推荐隐私保护访问控制
- 基于CNN的住宅平面图元素识别与布局语义分析被引量:2
- 2020年
- 建筑平面图分析是模式识别和图像处理领域的重要研究课题,但是现有的平面图分析方法未能有效检测平面图中的语义信息,不利于建筑设计的智能化。针对该问题,本文提出了一种新的基于卷积神经网络CNN的住宅平面图元素识别与布局语义分析的算法,该算法首先通过一个联合卷积神经网络同时识别平面图中的住宅图元与文本字符,然后通过后处理步骤再对平面图元素识别结果进行优化,并结合文本信息提取平面图中的语义信息与空间布局。实验结果表明,本文提出的平面图识别算法与其他方法相比,图元素检测结果更优,提取的房间语义信息更加准确。
- 张蔚王腾卢政达杨思宇孟维亮郭建伟郭建伟
- 关键词:卷积神经网络
- 基于共轴双旋翼无人机的目标检测与薄弱位置定位系统设计
- 2023年
- 由自主控制算法控制的非载人无人飞行器在执行定向打击等危险任务中往往比有人机具有更大的优势。然而,在执行爆破任务的时候,无人机在不同场景下的检测算法鲁棒性往往无法得到保证,这极大地影响了无人机对目标的定位效果,导致执行任务的成功率大幅降低。为解决上述问题,提出利用基于跨域的目标检测算法提高无人机在不同场景下检测算法的鲁棒性,并通过在线GPS聚类算法提高无人机对目标定位的稳定性。同时,鉴于目标爆破位置对爆破结果的影响,提出一种薄弱部位定位算法,提高爆破的精确度和成功率。
- 冯航涛曾少锋张璐杨旭杨旭
- 关键词:无人机目标检测图像分割
- 视觉语言导航研究进展被引量:2
- 2023年
- 视觉语言导航,即在一个未知环境中,智能体从一个起始位置出发,结合指令和周围视觉环境进行分析,并动态响应生成一系列动作,最终导航到目标位置.视觉语言导航有着广泛的应用前景,该任务近年来在多模态研究领域受到了广泛关注.不同于视觉问答和图像描述生成等传统多模态任务,视觉语言导航在多模态融合和推理方面,更具有挑战性.然而由于传统模仿学习的缺陷和数据稀缺的现象,模型面临着泛化能力不足的问题.系统地回顾了视觉语言导航的研究进展,首先对于视觉语言导航的数据集和基础模型进行简要介绍;然后全面地介绍视觉语言导航任务中的代表性模型方法,包括数据增强、搜索策略、训练方法和动作空间四个方面;最后根据不同数据集下的实验,分析比较模型的优势和不足,并对未来可能的研究方向进行了展望.
- 司马双霖黄岩何科技安东袁辉王亮