学位论文 > 优秀研究生学位论文题录展示

图片检索在网络敏感信息实时预警系统中的应用

作 者: 杨毅宇
导 师: 王树梅
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 公文图片 图片检索 汉字识别
分类号: TP391.41
类 型: 硕士论文
年 份: 2012年
下 载: 35次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网技术的不断发展,信息交换和传播的方式也越来越多样化,对于企业来说,需要及时获知网络上与自身有关的敏感信息。“网络敏感信息实时预警系统”是针对企业需求开发的一种网络信息审查系统,可以对指定网站上的文本和图片信息进行获取和分析。本文的研究属于系统中的图片搜索模块,在系统的图片库中辨别出公文图片,并使用汉字识别技术识别出标题文本,以进行相应的敏感信息匹配和预警。本文对公文图片进行标题识别的方法分为图片过滤、提取标题字符和字符识别三个部分。图片过滤是为了在种类繁多的图片中过滤掉不具有公文特征的图片,公文图片的明显特征包括颜色分布特征和红色横杠特征,再加上图片的大小,以这三个特征作为公文图片的判断标准。提取标题字符是从图片中提取出需要识别的单个字符,这是特征提取和识别的先决条件,提取字符可分为:版面分析、字符切分、规范化和细化几个步骤。字符识别是对各个标题字符进行特征提取和识别,这个部分又分为特征提取和识别器的设计两个步骤,识别器包括粗分类和单字识别,采用最近距离分类法进行多级分类和计算,以得到最后的识别结果。将本文介绍的图片检索和识别方法应用到“网络敏感信息实时预警系统”中,使系统在检索文本信息的同时,还具有了对网站上的公文图片进行检索和预警的功能,实际应用中的状况表明,本文的方法能够较好地检索出公文图片并识别标题信息。

全文目录


摘要  3-4
Abstract  4-8
1 绪论  8-13
  1.1 研究背景与意义  8-9
  1.2 公文图片检索的难点  9-10
  1.3 本文的主要工作  10-11
  1.4 论文结构安排  11-13
2 公文图片检索  13-20
  2.1 图片检索的一般方法  13-15
    2.1.1 颜色特征  13-14
    2.1.2 纹理特征  14
    2.1.3 形状特征  14-15
  2.2 汉字识别技术  15-18
    2.2.1 汉字识别系统的分类  15-16
    2.2.2 汉字识别研究的历史和现状  16-17
    2.2.3 汉字识别系统的构成  17
    2.2.4 汉字识别的一般方法  17-18
  2.3 应用汉字识别的公文图片检索  18-20
3 图片过滤  20-36
  3.1 图片读入内存  20-21
  3.2 图片初步过滤  21-24
    3.2.1 根据大小特征过滤  21-22
    3.2.2 根据颜色特征过滤  22-24
  3.3 图片灰度化  24-25
  3.4 图片二值化  25-30
    3.4.1 常用二值化方法  26-30
    3.4.2 针对整幅图片的otsu二值化  30
  3.5 二次过滤和倾斜矫正  30-36
    3.5.1 Hough变换方法  31-32
    3.5.2 检测红色横杠  32-34
    3.5.3 倾斜校正  34-36
4 提取标题字符  36-52
  4.1 版面分析  36-41
    4.1.1 文本图片中的组件  36-37
    4.1.2 提取基本组件  37-38
    4.1.3 合并组件  38-41
  4.2 针对标题区域的二值化  41-42
  4.3 切分字符  42-44
    4.3.1 字切分  42-44
    4.3.2 行切分  44
  4.4 规范化  44-48
    4.4.1 位置规范化  45-46
    4.4.2 大小规范化  46-48
  4.5 细化  48-52
    4.5.1 基于模板匹配的OPTA细化算法  49
    4.5.2 Hilditch细化算法  49-50
    4.5.3 改进的细化算法  50-52
5 字符识别  52-61
  5.1 特征的选择要求  52-53
  5.2 提取特征值  53-57
    5.2.1 投影变换系数法  53-55
    5.2.2 笔划复杂性指数  55
    5.2.3 基于统计量的字符特征  55-57
  5.3 识别器的设计  57-59
    5.3.1 最近距离分类  57
    5.3.2 浮动特征值  57-58
    5.3.3 特征的选取  58-59
  5.4 样本采集  59-61
6 公文图片检索在系统中的应用  61-65
  6.1 在网络敏感信息实时预警系统中的应用  61-62
  6.2 公文图片识别软件  62-65
    6.2.1 单幅图片识别  63-64
    6.2.2 公文图片搜索  64-65
7 总结  65-67
  7.1 论文总结  65-66
  7.2 不足和改进  66-67
致谢  67-68
参考文献  68-71
附录  71

相似论文

  1. 基于稀疏表示的脱机手写体汉字识别研究,TP391.1
  2. 基于动态粗外围方向线素特征的脱机手写汉字识别,TP391.43
  3. 印刷体中文文档中表格和汉字的识别研究,TP391.41
  4. 面向web图片检索的文本和图片信息融合技术研究,TP391.41
  5. 基于特征融合的脱机手写体汉字识别,TP391.43
  6. 智能监控系统中若干计算机视觉问题的研究与实现,TP391.41
  7. 基于多层次重叠网格的脱机手写汉字识别,TP391.43
  8. 自适应支持向量机及其在手写体汉字识别中的应用,TP391.43
  9. 隐马尔可夫模型的研究及其在图像识别中的应用,TP391.41
  10. 多层次多阶段仿人智能控制与识别方法及其应用的研究,TP273.5;TP391.4
  11. 基于多层次信息融合的手写体汉字识别研究,TP391.4
  12. 语言形式化原理,H0-02
  13. 多分类器集成的脱机手写体汉字识别方法的研究,TP391.43
  14. 基于Gabor特征的人脸表情识别和手写体汉字识别,TP391.41
  15. 印刷体文字识别的研究,TP391.43
  16. 脱机手写体汉字识别方法的研究,TP391.43
  17. 基于神经网络的车牌字符识别研究,TP391.41
  18. 手写体汉字的计算机识别研究,TP391.4
  19. 视频图像汉字的仿人识别机理研究,TP391.41
  20. 远程手写数据采集系统的设计与实现,TP274.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com