殷飞 作品数:20 被引量:11 H指数:2 供职机构: 中国科学院自动化研究所 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
试卷内容自动分类的版面分析方法、系统 本发明提出一种试卷内容自动分类的版面分析方法及系统,所述方法包括:获取录入的文档图像;提取所述文档图像的连通部件构成原始联通部件集;根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文... 刘成林 李晓辉 殷飞文献传递 自然场景图像与合成图像的快速分类 被引量:2 2017年 目的随着现代通信和传感技术的快速发展,互联网上多媒体数据日益增长,既为人们生活提供了便利,又给信息有效利用提出了挑战。为充分挖掘网络图像中蕴含的丰富信息,同时考虑到网络中图像类型的多样性,以及不同类型的图像需要不同的处理方法,本文针对当今互联网中两种主要的图像类型:自然场景图像与合成图像,设计层次化的快速分类算法。方法该算法包括两层,第1层利用两类图像在颜色,饱和度以及边缘对比度上表现出来的差异性提取全局特征,并结合支持向量机(SVM)进行初步分类,第1层分类结果中低置信度的图像会被送到第2层中。在第2层中,系统基于词袋模型(bag-of-words)对图像不同类型的局部区域的纹理信息进行编码得到局部特征并结合第2个SVM分类器完成最终分类。针对层次化分类框架,文中还提出两种策略对两个分类器进行融合,分别为分类器结果融合与全局+局部特征融合。为测试算法的实用性,同时收集并发布了一个包含超过30 000幅图像的数据库。结果本文设计的全局与局部特征对两类图像具有较强的判别性。在单核Intel Xeon(R)(2.50 GHz)CPU上,分类精度可达到98.26%,分类速度超过40帧/s。另外通过与基于卷积神经网络的方法进行对比实验可发现,本文提出的算法在性能上与浅层网络相当,但消耗更少的计算资源。结论本文基于自然场景图像与合成图像在颜色、饱和度、边缘对比度以及局部纹理上的差异,设计并提取快速有效的全局与局部特征,并结合层次化的分类框架,完成对两类图像的快速分类任务,该算法兼顾分类精度与分类速度,可应用于对实时性要求较高的图像检索与数据信息挖掘等实际项目中。 刘国帅 仲伟峰 殷飞 刘成林关键词:特征提取 用于视频中文本区域检测与定位的方法 一种用于视频中文本区域检测与定位的方法,其特征在于,包含如下步骤:输入视频,按等时间间隔对输入视频进行采样;对采样得到的图像进行边缘检测;利用检测后得到的图像生成文本置信度图;根据生成的文本置信度图提取文本候选区域;对文... 刘成林 白博 殷飞一种视频字幕文本提取和识别的方法 本发明公开了一种视频字幕文本提取和识别的方法,其步骤包括:输入视频中字幕区域的图像;将输入图像转化为灰度图;判断字幕区域中字符排列的方向;将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域;对字幕区域进行分行得到单行字... 刘成林 白博 殷飞文献传递 基于索引的快速手写中文文档关键词检索 被引量:2 2015年 手写文档检索很难同时保证较高的检索精度和速度.基于上述原因,文中提出快速手写中文文档关键词检索方法,大幅提高检索速度并保持检索精度.该方法基于文本行识别的候选切分-识别网格预先生成压缩的索引文件,然后在索引上快速检索关键词.在手写中文文档数据库CASIA-HWDB上的实验证明文中方法的有效性,该方法不但压缩索引大小,而且缩短词检索的耗时. 喻庚 殷飞 陈友斌 刘成林关键词:关键词检索 索引压缩 基于图聚类的脱机手写文档图像文本行分割 被引量:3 2014年 提出了一种基于自适应游程平滑算法和基于改进的最小张树聚类的文本行分割算法,该算法基于图的集成聚类的框架用以进一步解决文本行分割的问题,该框架可以很容易地推广到对更多的单一算法进行融合.在该融合框架中,由对应于连通部件的顶点以及顶点对之间的边构成文档图,边上的权值由两个单一文本行分割算法的结果决定.于是,文本行分割的任务就转化为如何以最小代价对文档图进行划分的问题.该融合算法在哈尔滨工业大学多人手写数据库上取得了较好的效果,召回率为99.31%,错误率为0.94%. 黄亮 殷飞 陈庆虎关键词:最小生成树 文档智能分析与识别前沿:回顾与展望 被引量:4 2023年 文档分析与识别(简称文档识别)技术将各种非结构化文档数据(图像、联机笔迹)转化为结构化数据,便于计算机处理和理解,应用场景十分广阔。20世纪60年代以来,文档识别方法研究与应用受到广泛关注并取得巨大进展。得益于深度学习技术的发展和应用,文档识别的性能快速提升,相关技术在文档数字化、票据处理、笔迹录入、智能交通、文档检索与信息抽取等领域得到广泛应用。首先介绍文档识别的背景和技术范畴,回顾该领域发展历史,然后重点对深度学习方法兴起以来的研究进行综述,分析当前技术存在的不足,并建议未来值得重视的研究方向。研究现状综述部分,按文档分析与识别的几个主要技术环节(文档图像预处理、版面分析、场景文本检测、文本识别、结构化符号和图形识别、文档检索与信息抽取)分别进行介绍,简述传统方法研究的代表性工作,重点介绍深度学习方法研究的新进展。总体上,当前研究对象向深度、广度扩展,处理方法全面转向深度神经网络模型和深度学习方法,识别性能大幅提升且应用场景不断扩展。在现状分析基础上,指出当前技术在识别精度和可靠性、可解释性、学习能力和自适应性等方面还有明显不足。最后从提升性能、应用扩展、提升学习能力几个角度提出一些研究方向。从提升性能角度,研究问题包括文本识别可靠性、可解释性、全要素识别、长尾问题、多语言、复杂版面分割与理解、变形文档分析与识别等。应用扩展包括新应用(如机器人流程自动化(robotic process automation,RPA)、文字信息抄录、考古)和新技术问题(语义信息抽取、跨模态融合、面向应用的推理决策等)两方面。从提升学习能力角度,相关问题包括小样本学习、迁移学习、多任务学习、领域自适应、结构化预测、弱监督学习、自监督学习、开放� 刘成林 金连文 金连文 李晓辉 殷飞关键词:版面分析 文本检测 文本识别 文档实体及关系抽取方法、装置及存储介质 本申请提供一种文档实体及关系抽取方法、装置及存储介质,属于计算机视觉和自然语言处理技术领域,该方法包括:确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为... 殷飞 戴鹤森 刘成林视频文本识别方法、装置及存储介质 本申请实施例提供一种视频文本识别方法、装置及存储介质。该方法包括:获取待处理的视频图像;利用可变形自注意力机制对多种分辨率的所述视频图像进行特征融合,获得编码输出特征;基于所述编码输出特征利用自注意力机制确定文本识别结果... 殷飞 唐军 张恒基于图半监督学习的文档二值化处理方法、系统、装置 本发明属于模式识别领域,具体涉及一种基于图半监督学习的文档二值化处理方法、系统、装置,旨在为了解决古籍文档文本识别准确度较低的问题。本发明方法包括:获取待处理的图像;降采样和k近邻法构图;基于分别从前景和背景中选取样本点... 殷飞 吴金文 孙俊 刘成林文献传递