学位论文 > 优秀研究生学位论文题录展示
图片检索在网络敏感信息实时预警系统中的应用
作 者: 杨毅宇
导 师: 王树梅
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 公文图片 图片检索 汉字识别
分类号: TP391.41
类 型: 硕士论文
年 份: 2012年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的不断发展,信息交换和传播的方式也越来越多样化,对于企业来说,需要及时获知网络上与自身有关的敏感信息。“网络敏感信息实时预警系统”是针对企业需求开发的一种网络信息审查系统,可以对指定网站上的文本和图片信息进行获取和分析。本文的研究属于系统中的图片搜索模块,在系统的图片库中辨别出公文图片,并使用汉字识别技术识别出标题文本,以进行相应的敏感信息匹配和预警。本文对公文图片进行标题识别的方法分为图片过滤、提取标题字符和字符识别三个部分。图片过滤是为了在种类繁多的图片中过滤掉不具有公文特征的图片,公文图片的明显特征包括颜色分布特征和红色横杠特征,再加上图片的大小,以这三个特征作为公文图片的判断标准。提取标题字符是从图片中提取出需要识别的单个字符,这是特征提取和识别的先决条件,提取字符可分为:版面分析、字符切分、规范化和细化几个步骤。字符识别是对各个标题字符进行特征提取和识别,这个部分又分为特征提取和识别器的设计两个步骤,识别器包括粗分类和单字识别,采用最近距离分类法进行多级分类和计算,以得到最后的识别结果。将本文介绍的图片检索和识别方法应用到“网络敏感信息实时预警系统”中,使系统在检索文本信息的同时,还具有了对网站上的公文图片进行检索和预警的功能,实际应用中的状况表明,本文的方法能够较好地检索出公文图片并识别标题信息。
|
全文目录
摘要 3-4 Abstract 4-8 1 绪论 8-13 1.1 研究背景与意义 8-9 1.2 公文图片检索的难点 9-10 1.3 本文的主要工作 10-11 1.4 论文结构安排 11-13 2 公文图片检索 13-20 2.1 图片检索的一般方法 13-15 2.1.1 颜色特征 13-14 2.1.2 纹理特征 14 2.1.3 形状特征 14-15 2.2 汉字识别技术 15-18 2.2.1 汉字识别系统的分类 15-16 2.2.2 汉字识别研究的历史和现状 16-17 2.2.3 汉字识别系统的构成 17 2.2.4 汉字识别的一般方法 17-18 2.3 应用汉字识别的公文图片检索 18-20 3 图片过滤 20-36 3.1 图片读入内存 20-21 3.2 图片初步过滤 21-24 3.2.1 根据大小特征过滤 21-22 3.2.2 根据颜色特征过滤 22-24 3.3 图片灰度化 24-25 3.4 图片二值化 25-30 3.4.1 常用二值化方法 26-30 3.4.2 针对整幅图片的otsu二值化 30 3.5 二次过滤和倾斜矫正 30-36 3.5.1 Hough变换方法 31-32 3.5.2 检测红色横杠 32-34 3.5.3 倾斜校正 34-36 4 提取标题字符 36-52 4.1 版面分析 36-41 4.1.1 文本图片中的组件 36-37 4.1.2 提取基本组件 37-38 4.1.3 合并组件 38-41 4.2 针对标题区域的二值化 41-42 4.3 切分字符 42-44 4.3.1 字切分 42-44 4.3.2 行切分 44 4.4 规范化 44-48 4.4.1 位置规范化 45-46 4.4.2 大小规范化 46-48 4.5 细化 48-52 4.5.1 基于模板匹配的OPTA细化算法 49 4.5.2 Hilditch细化算法 49-50 4.5.3 改进的细化算法 50-52 5 字符识别 52-61 5.1 特征的选择要求 52-53 5.2 提取特征值 53-57 5.2.1 投影变换系数法 53-55 5.2.2 笔划复杂性指数 55 5.2.3 基于统计量的字符特征 55-57 5.3 识别器的设计 57-59 5.3.1 最近距离分类 57 5.3.2 浮动特征值 57-58 5.3.3 特征的选取 58-59 5.4 样本采集 59-61 6 公文图片检索在系统中的应用 61-65 6.1 在网络敏感信息实时预警系统中的应用 61-62 6.2 公文图片识别软件 62-65 6.2.1 单幅图片识别 63-64 6.2.2 公文图片搜索 64-65 7 总结 65-67 7.1 论文总结 65-66 7.2 不足和改进 66-67 致谢 67-68 参考文献 68-71 附录 71
|
相似论文
- 基于稀疏表示的脱机手写体汉字识别研究,TP391.1
- 基于动态粗外围方向线素特征的脱机手写汉字识别,TP391.43
- 印刷体中文文档中表格和汉字的识别研究,TP391.41
- 面向web图片检索的文本和图片信息融合技术研究,TP391.41
- 基于特征融合的脱机手写体汉字识别,TP391.43
- 智能监控系统中若干计算机视觉问题的研究与实现,TP391.41
- 基于多层次重叠网格的脱机手写汉字识别,TP391.43
- 自适应支持向量机及其在手写体汉字识别中的应用,TP391.43
- 隐马尔可夫模型的研究及其在图像识别中的应用,TP391.41
- 多层次多阶段仿人智能控制与识别方法及其应用的研究,TP273.5;TP391.4
- 基于多层次信息融合的手写体汉字识别研究,TP391.4
- 语言形式化原理,H0-02
- 多分类器集成的脱机手写体汉字识别方法的研究,TP391.43
- 基于Gabor特征的人脸表情识别和手写体汉字识别,TP391.41
- 印刷体文字识别的研究,TP391.43
- 脱机手写体汉字识别方法的研究,TP391.43
- 基于神经网络的车牌字符识别研究,TP391.41
- 手写体汉字的计算机识别研究,TP391.4
- 视频图像汉字的仿人识别机理研究,TP391.41
- 远程手写数据采集系统的设计与实现,TP274.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|