学位论文 > 优秀研究生学位论文题录展示
中文版面分析与重构研究
作 者: 王宇
导 师: 田学东;郭宝兰
学 校: 河北大学
专 业: 计算机应用技术
关键词: 文字识别 版面分析 版面理解 版面重构 倾斜校正
分类号: TP399
类 型: 硕士论文
年 份: 2003年
下 载: 157次
引 用: 5次
阅 读: 论文下载
内容摘要
将以纸张为介质的文档信息自动转换成数字形式是一项很有意义的工作。经过数字化,可以很容易地实现对文档基于内容的检索,可以用较少的存储空间保存较多的文档资料。 在印刷文档数字化过程中,版面的分析、理解与重构是十分关键的问题。本文结合一个实际开发的文档自动处理系统,重点探讨了这三方面的实现技术。针对复杂程度各异的中文文档,提出了一个基于复杂度策略选择的版面分析方法。对于简单版面采用快速有效的基于投影的自顶向下版面分析方法;而复杂版面则采用适应性较强的基于模糊连接度和行列置信度的自底向上版面分析方法。版面理解的实现使用基于规则的方法。版面重构的技术和实现围绕RTF和HTML两种文档格式来讨论。综合这些技术和算法并结合文字、表格识别等模块,实现了完整的自动文档处理系统。实验和实际运行的系统证明了所采用方法的有效性和系统的实用性。
|
全文目录
第1章 绪论 8-12 1.1 研究目的与意义 8-9 1.2 文档自动处理系统组成 9-11 1.3 论文的组织 11-12 第2章 文档图像倾斜校正 12-17 2.1 倾斜校正方法概述 12 2.2 基于跳变的倾斜校正 12-17 2.2.1 方法的特点 12-13 2.2.2 倾斜角度的检测 13-15 2.2.3 倾斜的校正 15-17 第3章 版面分析 17-36 3.1 版面分析的对象与任务 17-18 3.2 版面分析方法综述 18-19 3.3 基于版面复杂度的策略选择方法 19-21 3.4 基于投影的简单版面分析 21-29 3.5 基于模糊连接度和行列置信度的复杂版面分析 29-34 3.6 版面分析的实验结果 34-36 第4章 版面理解 36-41 4.1 版面理解的方法 36-37 4.2 一种基于排版规则的版面理解方法 37-41 第5章 文档版面重构 41-52 5.1 利用RTF文件格式实现文档重构 41-48 5.1.1 RTF格式分析 41-43 5.1.2 RTF重构文档版面的数据结构设计 43-45 5.1.3 文本、图像与表格的重构 45-48 5.2 利用HTML语言实现文档重构 48-49 5.2.1 HTML格式分析 48 5.2.2 HTML重构文本、图像与表格 48-49 5.3 文档版面重构实验结果 49-52 第6章 结束语 52-54 6.1 总结 52 6.2 未来研究建议 52-54 参考文献 54-60 攻读硕士学位期间科研工作情况 60-61 致谢 61
|
相似论文
- 汽车轮胎表面标识识别系统的设计与研究,TP391.41
- 地震图数字化中波形校正与跟踪方法的研究,TP391.41
- 企业邮件监管系统的设计与实现,TP393.098
- 文档图像的版面分析技术研究,TP391.41
- 实时车牌分割与识别技术研究,TP391.41
- 车牌字符自动识别方法的研究,TP391.41
- 基于OCR的支票识别系统的研究与实现,TP391.41
- 基于图像处理的丝印质量监控系统,TP391.41
- 基于复杂度的自适应中文版面分析方法研究,TP391.1
- 车牌识别系统的主要技术研究,TP391.41
- 车牌自动识别算法的研究与实现,TP391.41
- 车标定位技术研究,TP391.41
- 道路交通事故现场图绘制系统研究,TP391.41
- 文本图像中Logo检测与识别技术的研究,TP391.41
- 印刷体中文文档中表格和汉字的识别研究,TP391.41
- 复杂的中文文档图像版面分析研究,TP391.41
- 基于神经网络的字符识别算法研究,TP391.41
- 基于高阶神经网络的文字识别算法研究,TP391.43
- 自然场景下的文本定位与提取,TP391.1
- 视频图像中的文字提取技术研究,TP391.41
- 基于投影模板法的车牌图像定位算法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 在其他方面的应用
© 2012 www.xueweilunwen.com
|