学位论文 > 优秀研究生学位论文题录展示

互联网文本视频过滤技术研究与应用

作 者: 徐立新
导 师: 桑楠;李士湘
学 校: 电子科技大学
专 业: 软件工程
关键词: 信息过滤 文本定位 文本抽取 主题识别 倾向性分析
分类号: TP391.41
类 型: 硕士论文
年 份: 2010年
下 载: 27次
引 用: 0次
阅 读: 论文下载
 

内容摘要


由于网络信息发布缺少有效的监督机制,越来越多的不良信息出现在网络上。为了构建和谐健康的网络环境,自动的信息过滤技术具有重要研究价值。为了逃避现有的过滤系统,当前不良信息发布者越来越多地以图像的形式发布不良文本信息,这给不良信息过滤研究提出了新的挑战。本文针对网络上的文本图像信息进行不良信息过滤研究,其包括文本图像的字符识别和识别后文本过滤两个方面的研究内容。为了提高过滤的准确性,本文对文本图像过滤的一些关键技术提出了建设性的方法。通过文本定位文本抽取研究提高复杂背景文本图像中的字符识别性能,同时通过文本主题识别和文本倾向性分析相结合的方法来提高文本过滤的准确率。本论文的主要工作如下:1、本文提出了基于连通分量的文本定位方法。该方法利用了字符几何形状特征和文本区域内字符整体特征,并将两类特征有效地融合到分类过程中。同时,本方法使用了级联弱分类器和支持向量机相结合的分类方法来确认字符。实验结果显示该方法具有较高的定位准确率。2、针对复杂背景图像的文本抽取问题,本文提出了一种基于HSL颜色空间的抽取方法,用于消除字符颜色不一致和复杂背景的影响。该方法将文本区域分为三种不同的颜色类型,对不同类型的文本区域,采用HSL颜色空间中相适应的颜色分量进行分割。该方法充分利用HSL各个分量的优势。实验结果表明了该方法的有效性。3、在文本过滤方面,本文采用主题来表示过滤模板,通过识别文本主题来确认是否需要过滤。本文提出了基于概念知识树的主题识别方法。该方法利用了概念知识树的层次关系和节点属性信息来确认文本主题的核心概念,并利用概念的语义关系构建一个复合概念来表示文本的主题。实验表明该主题识别方法具有较高的性能,并能有效地运用于文本过滤系统中。4、为能够准确识别具有相同主题的正面和反面文本,文本情感倾向性特性被用于文本过滤。本文提出了基于主题词上下文词汇的文本倾向性分析方法。该方法认为文本的倾向性与文本的主题相关,而且可以通过主题词的上下文词汇对主题词的相互作用来表示。基于主题词的倾向性分析能够有效的消除文本内容变化带来的困难。实验结果显示了该方法的有效性。

全文目录


摘要  4-6
Abstract  6-10
第一章 绪论  10-17
  1.1 信息过滤  10-13
  1.2 研究背景和意义  13-14
  1.3 本文的主要工作  14-15
  1.4 论文的组织结构  15-17
第二章 文本视频过滤技术研究现状概述  17-28
  2.1 文本图像分析  17-21
    2.1.1 文本图像分析基本方法  17-19
    2.1.2 文本图像中的字符识别  19-21
  2.2 信息过滤研究概述  21-26
    2.2.1 不良信息过滤基本方法  22-24
    2.2.2 基于内容的过滤方法  24-26
  2.3 小结  26-28
第三章 文本图像过滤系统平台总体构架  28-34
  3.1 文本图像过滤系统总体需求  28
  3.2 不良信息过滤平台系统构架  28-31
  3.3 文本图像过滤的技术构架  31-33
  3.4 小结  33-34
第四章 文本图像过滤系统平台关键技术详细设计  34-43
  4.1 连通分量的文本定位功能设计  34-36
  4.2 基于HSL 文本抽取功能设计  36-38
  4.3 主题过滤功能设计  38-40
  4.4 基于上下文的文本倾向性分析功能  40-42
  4.5 本章小结  42-43
第五章 文本图像过滤平台关键技术实现  43-68
  5.1 连通分量的文本定位算法实现  43-54
    5.1.1 特征提取  43-51
    5.1.2 分类器选择  51-54
  5.2 基于HSL 的文本抽取的实现  54-59
    5.2.1 文本区域类型确认  56-57
    5.2.2 基于色度的分割  57-59
    5.2.3 亮度和色度联合的分割方法  59
  5.3 基于概念知识树的主题识别  59-65
    5.3.1 领域知识树确认  60-61
    5.3.2 关键概念识别  61-63
    5.3.3 文本主题生成  63-65
  5.4 基于上下文的文本倾向性分析功能实现  65-67
    5.4.1 主题词上下文词汇构建  65-66
    5.4.2 主题词倾向性计算  66-67
  5.5 本章小结  67-68
第六章 系统功能实验与测试  68-83
  6.1 文本定位功能实验与测试  68-76
    6.1.1 测试数据库  68-69
    6.1.2 性能评估  69-71
    6.1.3 实验结果  71-76
  6.2 文本抽取功能的实验与测试  76-77
  6.3 主题识别功能的实验与测试  77-80
  6.4 文本倾向性功能的实验与测试  80-81
  6.5 小结  81-83
第七章 总结和展望  83-86
  7.1 工作总结  83-84
  7.2 未来展望  84-86
致谢  86-87
参考文献  87-90

相似论文

  1. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  2. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  3. 移动网络综合告警管理系统的设计与实现,TN929.5
  4. 面向Web的中文自动文摘生成的研究,TP391.1
  5. 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
  6. 图像文本提取系统设计及应用研究,TP391.41
  7. 网络舆情分析关键技术研究与实现,TP393.09
  8. 面向工程监理的多Agent信息智能检索机制研究,TP391.3
  9. 基于WEB2.0的网络招聘管理系统开发与设计,TP311.52
  10. 基于Web文本挖掘的网络口碑监测系统研究,TP391.1
  11. 面向字幕帧的视频图像文本识别,TP391.41
  12. 网络图片中文本区域的定位技术研究,TP391.41
  13. 基于移动终端的自然场景文本定位和识别,TP391.1
  14. 基于边缘和灰度的视频文字提取方法的研究与应用,TP391.41
  15. 视频文本提取技术研究及在虚拟卡拉OK中的应用,TP391.41
  16. 视频检索中字幕文本的提取研究,TP391.41
  17. 视频文本提取技术研究,TP391.41
  18. 新闻视频中文本检测和定位技术的研究,TP391.41
  19. 基于虚拟仪器的芯片识别系统研究,TP391.41
  20. 基于主动学习的语料自动标注方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com