学位论文 > 优秀研究生学位论文题录展示

基于Web内容挖掘的医药类广告监控系统的实现

作 者: 窦汝鹏
导 师: 武俊峰
学 校: 哈尔滨理工大学
专 业: 模式识别与智能系统
关键词: Web内容挖掘 网络爬虫 网页信息提取 网页分类
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 17次
引 用: 0次
阅 读: 论文下载
 

内容摘要


伴随着互联网的迅速发展,庞大的网民规模吸引着越来越多的广告主将注意力转向网络广告市场,网络广告的数量急剧增长。但是伴随而来的是违法广告层出不穷,尤其是违法医药广告危害最为严重。由于网络上存在着巨大的信息量,仅仅依靠人工审查的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络医药广告监控系统。本论文对网络爬虫、网页信息抽取、网页分类等技术分别进行了深入的研究,并提出了相应的解决方案,以这些技术为基础本文实现了一个网络医药广告监控系统,较好地解决了互联网中医药广告的监控问题。本文完成的主要工作如下:1.对现有的网络爬虫技术进行了深入研究,详细介绍了爬虫工作的原理。针对网页的构成,结合网页提取的开源工具提出了本文的网页信息抽取方法。测试结果表明本文提出的方法有着较好的效率和准确性。2.介绍了网页分类的现状和处理流程,详细讲解了网页分类中涉及的各个模块的理论。在此基础上,充分利用相关的开源工具,并针对χ2统计法在文本分类中的缺陷提出了改进的办法,搭建了判断网络爬虫所爬取的信息是否为医药类信息的分类模块,实验结果表明本文提出的分类模块有着较好的性能。3.设计并实现了一个医药类网络广告监控系统,可以完成对网络上医药广告的自动追踪处理,提供分布式计算支持,有着较强的操作性和良好的展示界面。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-15
  1.1 课题研究背景  10
  1.2 选题意义  10-11
  1.3 研究现状  11-14
    1.3.1 Web 内容挖掘研究现状  11-13
    1.3.2 广告监测系统研究现状  13-14
  1.4 本文研究内容  14-15
第2章 网页的自动获取及内容抽取  15-30
  2.1 网络数据获取  15-18
    2.1.1 单机版爬虫组成模块  15-17
    2.1.2 分布式爬虫的URL 管理  17
    2.1.3 爬取策略  17-18
  2.2 网页信息提取  18-27
    2.2.1 HTML 结构  18-20
    2.2.2 基于HtmlCleaner 的网页提取  20-22
    2.2.3 网上药房的信息提取  22-24
    2.2.4 医药类推广广告的信息提取  24-27
  2.3 网页信息提取实验  27-28
  2.4 本章小结  28-30
第3章 网页分类  30-52
  3.1 引言  30
  3.2 网页分类  30-43
    3.2.1 分词及停用词过滤  31-32
    3.2.2 特征选择  32-35
    3.2.3 文本表示模型  35-37
    3.2.4 分类算法  37-43
  3.3 分类系统设计  43-51
    3.3.1 网页提取模块  43-44
    3.3.2 特征向量生成模块  44-47
    3.3.3 分类算法实现模块  47-50
    3.3.4 分类实验  50-51
  3.4 本章小结  51-52
第4章 系统实现  52-65
  4.1 系统框架  52-53
  4.2 分布式系统  53-57
    4.2.1 分布式系统的概念和特点  53-54
    4.2.2 基于QuickServer 架构服务器  54-56
    4.2.3 通信协议  56-57
  4.3 业务管理模块  57-60
    4.3.1 待监测网站管理  57-58
    4.3.2 敏感信息库管理  58-59
    4.3.3 商标库管理  59-60
  4.4 广告采集平台  60-61
  4.5 广告内容分析平台  61-64
  4.6 本章小结  64-65
总结  65-66
参考文献  66-69
攻读硕士学位期间发表的学术论文  69-70
致谢  70

相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  3. 面向主题型的网页分类技术的研究与实现,TP393.092
  4. 网络舆情分析关键技术研究与实现,TP393.09
  5. 基于最大熵模型的中文网页分类器设计和实现,TP393.092
  6. Web挖掘技术在远程教学系统中的应用,TP391.6
  7. 网络舆情数据获取与话题分析技术研究,TP393.09
  8. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  9. 面向企业竞争情报的主题搜索研究与实现,TP391.3
  10. 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
  11. 中文网页分类技术研究及预分类算法实现,TP393.092
  12. 企业搜索引擎中网页分类技术的研究与实现,TP393.092
  13. 个性化搜索引擎的研究与设计,TP391.3
  14. 搜索引擎中网络爬虫技术研究,TP391.3
  15. 主题搜索与Web挖掘的研究及系统实现,TP391.3
  16. 基于网络评论的文本倾向性分类技术的研究与实现,TP311.52
  17. 基于DOM的HTML网页正文信息抽取模块的设计与实现,TP393.092
  18. 基于URL特征的网页分类研究,TP393.092
  19. 基于网络爬虫的跨站脚本漏洞动态检测技术研究,TP393.08
  20. 统计和规则相结合的新闻网页分类系统的设计与实现,TP393.092
  21. 主题搜索引擎的研究与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com