学位论文 > 优秀研究生学位论文题录展示

基于Web内容挖掘的医药类广告监控系统的实现

作　者: 窦汝鹏
导　师: 武俊峰
学　校: 哈尔滨理工大学
专　业: 模式识别与智能系统
关键词: Web内容挖掘网络爬虫网页信息提取网页分类
分类号: TP393.09
类　型: 硕士论文
年　份: 2011年
下　载: 17次
引　用: 0次
阅　读: 论文下载

内容摘要

伴随着互联网的迅速发展,庞大的网民规模吸引着越来越多的广告主将注意力转向网络广告市场,网络广告的数量急剧增长。但是伴随而来的是违法广告层出不穷,尤其是违法医药广告危害最为严重。由于网络上存在着巨大的信息量,仅仅依靠人工审查的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络医药广告监控系统。本论文对网络爬虫、网页信息抽取、网页分类等技术分别进行了深入的研究,并提出了相应的解决方案,以这些技术为基础本文实现了一个网络医药广告监控系统,较好地解决了互联网中医药广告的监控问题。本文完成的主要工作如下:1.对现有的网络爬虫技术进行了深入研究,详细介绍了爬虫工作的原理。针对网页的构成,结合网页提取的开源工具提出了本文的网页信息抽取方法。测试结果表明本文提出的方法有着较好的效率和准确性。2.介绍了网页分类的现状和处理流程,详细讲解了网页分类中涉及的各个模块的理论。在此基础上,充分利用相关的开源工具,并针对χ2统计法在文本分类中的缺陷提出了改进的办法,搭建了判断网络爬虫所爬取的信息是否为医药类信息的分类模块,实验结果表明本文提出的分类模块有着较好的性能。3.设计并实现了一个医药类网络广告监控系统,可以完成对网络上医药广告的自动追踪处理,提供分布式计算支持,有着较强的操作性和良好的展示界面。

全文目录

摘要  5-6
Abstract  6-10
第1章绪论  10-15
  1.1 课题研究背景  10
  1.2 选题意义  10-11
  1.3 研究现状  11-14
    1.3.1 Web 内容挖掘研究现状  11-13
    1.3.2 广告监测系统研究现状  13-14
  1.4 本文研究内容  14-15
第2章网页的自动获取及内容抽取  15-30
  2.1 网络数据获取  15-18
    2.1.1 单机版爬虫组成模块  15-17
    2.1.2 分布式爬虫的URL 管理  17
    2.1.3 爬取策略  17-18
  2.2 网页信息提取  18-27
    2.2.1 HTML 结构  18-20
    2.2.2 基于HtmlCleaner 的网页提取  20-22
    2.2.3 网上药房的信息提取  22-24
    2.2.4 医药类推广广告的信息提取  24-27
  2.3 网页信息提取实验  27-28
  2.4 本章小结  28-30
第3章网页分类  30-52
  3.1 引言  30
  3.2 网页分类  30-43
    3.2.1 分词及停用词过滤  31-32
    3.2.2 特征选择  32-35
    3.2.3 文本表示模型  35-37
    3.2.4 分类算法  37-43
  3.3 分类系统设计  43-51
    3.3.1 网页提取模块  43-44
    3.3.2 特征向量生成模块  44-47
    3.3.3 分类算法实现模块  47-50
    3.3.4 分类实验  50-51
  3.4 本章小结  51-52
第4章系统实现  52-65
  4.1 系统框架  52-53
  4.2 分布式系统  53-57
    4.2.1 分布式系统的概念和特点  53-54
    4.2.2 基于QuickServer 架构服务器  54-56
    4.2.3 通信协议  56-57
  4.3 业务管理模块  57-60
    4.3.1 待监测网站管理  57-58
    4.3.2 敏感信息库管理  58-59
    4.3.3 商标库管理  59-60
  4.4 广告采集平台  60-61
  4.5 广告内容分析平台  61-64
  4.6 本章小结  64-65
总结  65-66
参考文献  66-69
攻读硕士学位期间发表的学术论文  69-70
致谢  70

基于Web内容挖掘的医药类广告监控系统的实现

内容摘要

全文目录

相似论文