靳简明
- 作品数:22 被引量:70H指数:5
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 维汉英混排文档识别被引量:4
- 2006年
- 维、汉、英是特点完全不同的文字。该文依据多层次语言判断和适当干预的多语言字符识别系统设计原则首次实现了维、汉、英混排文本识别系统。识别系统首先根据维、汉、英文字的各自特点实现字符块语言属性的初步判断,然后针对每种文字设计不同的字符切割算法。字符识别可信度用来判断字符语言属性和字符切分结果是否正确。实验结果表明,各种维、汉、英混排文本识别率达到96.4%以上。
- 靳简明王华丁晓青
- 关键词:字符识别维吾尔文
- 数学公式图像处理综述被引量:7
- 2005年
- 数学公式广泛存在于各类文献之中,因此数学公式的自动定位、识别、分析和理解是文档图像处理必须研究的问题。但是数学公式和普通文本存在很大区别,所以数学公式的识别、分析远比文字段落的识别困难。本文回顾了数学公式图像处理的研究历程,提出了公式处理的模型,总结比较了公式定位、公式识别、公式分析以及性能评估等方面的主要处理方法,并展望了未来的研究方向。
- 靳简明江红英王庆人
- 关键词:自动性能评估文档图像处理
- 数学公式图像识别与理解
- 王庆人靳简明史广顺
- 数学语言是不分领域、不分国度、不分种族的人类“通用语言”,数学公式广泛存在于各类文献之中。数学公式的自动识别、分析和理解具有头等重要性和必要性,但是数学公式的识别、分析远比文字段落的识别困难。在该项目开始研究之前,世界上...
- 关键词:
- 统一平台民族文字(蒙藏维哈柯朝)文档识别系统
- 丁晓青彭良瑞刘长松王华靳简明吴佑寿于洪志哈力木拉提那顺乌日图赵小兵方驰文迪李昕
- 项目属于信息技术领域。为振兴和发展中国少数民族信息文化,项目独创全面解决了蒙古、维吾尔、哈萨克、柯尔克孜文、国际关注的阿拉伯文等连写拼音文字以及与汉字、英文混排的文档识别难题,在国内外首次推出统一平台民族文字(蒙藏维哈柯...
- 关键词:
- 关键词:字符识别方法
- 基于阿拉伯字符集的印刷体字符识别方法
- 基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域,其特征在于,提取阿拉伯字符集中字符独特的区域信息、字符形式信息、构成部件信息进行预分类,确定输入字符所属的字符类别子集,然后抽取能很好反映字符笔划构成信息的方向特征,...
- 丁晓青王华靳简明彭良瑞刘长松方驰
- 文献传递
- 汉英双语OCR系统集成原则及实现
- 汉英双语混排识别是构造自动文档处理系统时常会遇到的问题。如果能够有效集成现有汉英OCR系统,就有可能高质量的识到混排文档。因此,本文提出了适当干预和多层次语言判断的系统集成原则,并集成现有汉英识别引擎,识别普通和特殊的汉...
- 靳简明
- 关键词:系统集成图像处理OCR
- 文献传递
- 印刷体数学公式处理研究现状
- 科技文献中包含大量的数学公式,如果能够构造智能系统自动定位、识别并分析数学公式, 就可以更有效地利用这些文献。作为文档处理领域内的一个前沿性研究课题,本文介绍了印刷体数学公式处理的现状,并指出了进一步的研究方向。
- 靳简明江红英
- 文献传递
- 印刷蒙古文文本切分方法
- 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词...
- 丁晓青靳简明彭良瑞王华刘长松方驰
- 文献传递
- 印刷蒙古文文本切分方法
- 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词...
- 丁晓青靳简明彭良瑞王华刘长松方驰
- 文献传递
- 数学公式识别系统:MatheReader被引量:16
- 2006年
- 数学公式广泛存在于各类文献之中,但是公式的识别远比文字段落的识别困难.文章介绍了一个数学公式图像识别系统MatheReader,重点阐述了其在公式定位及公式分析方面的技术方案.在公式定位方面,抽取版式特征,采用Parzen分类器区分独立公式和普通文字行,在普通文字行内检测二维结构定位内嵌公式.在公式分析方面,定义十一种基本公式类型,并用产生式规则限定每类公式的唯一分解方法,提出先识别公式类型,然后分解为子表达式的公式分析方法.和已有系统比较,MatheReader的功能更加强大,能够处理的公式更加丰富.
- 靳简明江红英王庆人
- 关键词:自动性能评估文档图像处理