学位论文 > 优秀研究生学位论文题录展示

互联网舆情信息挖掘技术研究与实现

作 者: 尚楚涵
导 师: 杨捷; 陈亮雄
学 校: 华南理工大学
专 业: 软件工程
关键词: 互联网舆情 信息获取 网络爬虫 锚文本 热点事件
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 49次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络技术的发展,互联网上的信息量成倍增长,已经毋庸置疑的成为现今社会知识和信息的集聚地,它也理所当然的成为了人们获取信息的目标地。互联网作为为人们获取知识和信息的重要途径,提供给人们便利的同时也收集着人们对获取信息的反馈。各种不同的反馈构成了互联网上的舆情信息,又因为互联网的虚拟性和开放性,使得网络舆情信息比普通舆情信息的影响范围更广,互联网舆情信息已经成为社会民意的风向标,分析互联网信息就必不可少的要对互联网舆情信息进行研究。本文就互联网舆情信息的抓取和分类做了一定的研究,参考分析互联网舆情分析系统中网络爬虫的己有研究成果,深入分析了网络爬虫的一些关键技术,根据本论文的需求实现一个优化的网络爬虫,实现互联网舆情信息的抓取。本文分析了热点事件关键词在舆情信息研究中的重要作用,提出通过热点事件关键词来发现舆情信息,这一方式提高了舆情信息获取精度和获取效率。在一般的网络爬虫架构中加入锚文本匹配模块,该模块实现对网络舆情信息的有效获取。本论文主要进行的工作如下:第一,对互联网舆情信息挖掘技术的特点及难点进行分析并总结,分析网络爬虫在该技术中的地位作用。研究它的实现目标和实现方法,第二,分析通用网络爬虫技术的实现,研究主题爬虫技术、聚焦爬虫技术等,然后在此基础上提出适合本系统的网络爬虫实现目标。给出了爬虫的具体实现细节,其中包括网页的抓取及解析、网页内容的获取和去重、爬虫的爬行策略、URLS的去重等。第三,分析网页锚文本与内容的关系,提出并实现用锚文本匹配热点事件关键词这一方法。研究短句汉语的匹配问题,深入研究文本分类技术,主要包括文本分词,文本表示,特征选择和分类算法四个部分。实现网页内容的数据库存储,研究信息的索引和检索技术,该技术的实现能使用户方便的检索数据库中存储的信息。

全文目录


摘要  5-6
ABSTRACT  6-11
第一章 绪论  11-15
  1.1 研究背景及意义  11-12
    1.1.1 背景  11
    1.1.2 意义  11-12
  1.2 国内外互联网舆情信息研究现状  12-13
    1.2.1 国内研究现状  12
    1.2.2 国外研究现状  12-13
  1.3 本文主要研究内容  13
  1.4 本文的组织和结构  13-15
第二章 网络舆情信息挖掘  15-22
  2.1 网络信息采集基础介绍  15
  2.2 互联网舆情信息的获取  15-16
  2.3 热点舆情话题判断  16-18
  2.4 文本分类技术  18-19
  2.5 语义分析技术  19-20
  2.6 文本的情感倾向性分析  20
  2.7 小结  20-22
第三章 文本分类  22-35
  3.1 文本分类技术研究现状  22
  3.2 文本分类相关技术  22-33
    3.2.1 文本分词  22-29
    3.2.2 文本表示  29
    3.2.3 特征词选择  29-31
    3.2.4 文本分类算法  31-33
  3.3 分类算法评价策略  33-34
    3.3.1 召回率和准确率  33-34
  3.4 本章小结  34-35
第四章 网络爬虫锚文本应用  35-48
  4.1 网络爬虫应用背景  35
  4.2 爬虫的搜索策略  35-36
  4.3 网络爬虫的研究  36-39
    4.3.1 通用爬虫技术  37-38
    4.3.2 主题爬虫技术  38-39
  4.4 基于锚文本的爬虫概要设计  39-42
    4.4.1 高性能网络爬虫分析  40
    4.4.2 基于锚文本的网络爬虫  40-42
  4.5 锚文本应用分析  42-46
    4.5.1 锚文本与热点关键词  42
    4.5.2 锚文本分词  42-45
    4.5.3 锚文本与关键词匹配  45-46
  4.6 本章小结  46-48
第五章 基于锚文本网络爬虫系统实现和测试  48-66
  5.1 下载模块  48-53
  5.2 网页分析模块  53-55
    5.2.1 页面内容提取  53-54
    5.2.2 URL 解析  54-55
  5.3 网页内容去重模块  55-58
  5.4 锚文本匹配模块  58-60
    5.4.1 匹配流程  58-59
    5.4.2 关键词存储  59-60
  5.5 URL 分配模块  60-61
  5.6 系统测试结果与分析  61-64
    5.6.1 热点选词及分词结果  62-63
    5.6.2 实验结果  63-64
    5.6.3 结论  64
  5.7 本章小结  64-66
第六章 总结与展望  66-67
参考文献  67-69
攻读硕士学位期间取得的研究成果  69-70
致谢  70-71
附件  71

相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 网络舆情的政府治理研究,G206
  3. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  4. 基于Deep Web的图书信息集成与查询系统,TP311.52
  5. 垂直搜索引擎关键技术的研究与实现,TP311.52
  6. 基于人工生命的蜂群行为的仿真与研究,TP391.3
  7. 基于观点挖掘的产品可用性建模与评价,F274
  8. 网络舆情热点事件中的网民行为研究,G206
  9. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  10. 公众论坛信息实时检索的研究与实现,TP391.3
  11. 网络舆情信息采集系统的设计与实现,TP393.09
  12. 网络热点新闻事件中的群体心理分析,G206
  13. 变锥形管道参数测量中的信息获取与控制技术,TP274
  14. 基于垂直搜索技术的竞争情报采集系统的设计与实现,TP391.3
  15. 基于学习的恶意网页智能检测系统,TP393.08
  16. BBS舆情智能分析系统研究与实现,TP393.094
  17. 大学生获取信息方式的转变与高校思想政治教育的对策,G641
  18. 数字图书馆开发中信息资源的发现与获取技术及实现条件研究,G250.76
  19. 网络舆情数据获取与话题分析技术研究,TP393.09
  20. 基于LMS的数字煤场系统的研究,TM621
  21. 产品快速配置系统的研究与开发,TH122

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com