学位论文 > 优秀研究生学位论文题录展示
互联网舆情信息挖掘技术研究与实现
作 者: 尚楚涵
导 师: 杨捷; 陈亮雄
学 校: 华南理工大学
专 业: 软件工程
关键词: 互联网舆情 信息获取 网络爬虫 锚文本 热点事件
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 49次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络技术的发展,互联网上的信息量成倍增长,已经毋庸置疑的成为现今社会知识和信息的集聚地,它也理所当然的成为了人们获取信息的目标地。互联网作为为人们获取知识和信息的重要途径,提供给人们便利的同时也收集着人们对获取信息的反馈。各种不同的反馈构成了互联网上的舆情信息,又因为互联网的虚拟性和开放性,使得网络舆情信息比普通舆情信息的影响范围更广,互联网舆情信息已经成为社会民意的风向标,分析互联网信息就必不可少的要对互联网舆情信息进行研究。本文就互联网舆情信息的抓取和分类做了一定的研究,参考分析互联网舆情分析系统中网络爬虫的己有研究成果,深入分析了网络爬虫的一些关键技术,根据本论文的需求实现一个优化的网络爬虫,实现互联网舆情信息的抓取。本文分析了热点事件关键词在舆情信息研究中的重要作用,提出通过热点事件关键词来发现舆情信息,这一方式提高了舆情信息获取精度和获取效率。在一般的网络爬虫架构中加入锚文本匹配模块,该模块实现对网络舆情信息的有效获取。本论文主要进行的工作如下:第一,对互联网舆情信息挖掘技术的特点及难点进行分析并总结,分析网络爬虫在该技术中的地位作用。研究它的实现目标和实现方法,第二,分析通用网络爬虫技术的实现,研究主题爬虫技术、聚焦爬虫技术等,然后在此基础上提出适合本系统的网络爬虫实现目标。给出了爬虫的具体实现细节,其中包括网页的抓取及解析、网页内容的获取和去重、爬虫的爬行策略、URLS的去重等。第三,分析网页锚文本与内容的关系,提出并实现用锚文本匹配热点事件关键词这一方法。研究短句汉语的匹配问题,深入研究文本分类技术,主要包括文本分词,文本表示,特征选择和分类算法四个部分。实现网页内容的数据库存储,研究信息的索引和检索技术,该技术的实现能使用户方便的检索数据库中存储的信息。
|
全文目录
摘要 5-6 ABSTRACT 6-11 第一章 绪论 11-15 1.1 研究背景及意义 11-12 1.1.1 背景 11 1.1.2 意义 11-12 1.2 国内外互联网舆情信息研究现状 12-13 1.2.1 国内研究现状 12 1.2.2 国外研究现状 12-13 1.3 本文主要研究内容 13 1.4 本文的组织和结构 13-15 第二章 网络舆情信息挖掘 15-22 2.1 网络信息采集基础介绍 15 2.2 互联网舆情信息的获取 15-16 2.3 热点舆情话题判断 16-18 2.4 文本分类技术 18-19 2.5 语义分析技术 19-20 2.6 文本的情感倾向性分析 20 2.7 小结 20-22 第三章 文本分类 22-35 3.1 文本分类技术研究现状 22 3.2 文本分类相关技术 22-33 3.2.1 文本分词 22-29 3.2.2 文本表示 29 3.2.3 特征词选择 29-31 3.2.4 文本分类算法 31-33 3.3 分类算法评价策略 33-34 3.3.1 召回率和准确率 33-34 3.4 本章小结 34-35 第四章 网络爬虫与锚文本应用 35-48 4.1 网络爬虫应用背景 35 4.2 爬虫的搜索策略 35-36 4.3 网络爬虫的研究 36-39 4.3.1 通用爬虫技术 37-38 4.3.2 主题爬虫技术 38-39 4.4 基于锚文本的爬虫概要设计 39-42 4.4.1 高性能网络爬虫分析 40 4.4.2 基于锚文本的网络爬虫 40-42 4.5 锚文本应用分析 42-46 4.5.1 锚文本与热点关键词 42 4.5.2 锚文本分词 42-45 4.5.3 锚文本与关键词匹配 45-46 4.6 本章小结 46-48 第五章 基于锚文本网络爬虫系统实现和测试 48-66 5.1 下载模块 48-53 5.2 网页分析模块 53-55 5.2.1 页面内容提取 53-54 5.2.2 URL 解析 54-55 5.3 网页内容去重模块 55-58 5.4 锚文本匹配模块 58-60 5.4.1 匹配流程 58-59 5.4.2 关键词存储 59-60 5.5 URL 分配模块 60-61 5.6 系统测试结果与分析 61-64 5.6.1 热点选词及分词结果 62-63 5.6.2 实验结果 63-64 5.6.3 结论 64 5.7 本章小结 64-66 第六章 总结与展望 66-67 参考文献 67-69 攻读硕士学位期间取得的研究成果 69-70 致谢 70-71 附件 71
|
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 网络舆情的政府治理研究,G206
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 基于Deep Web的图书信息集成与查询系统,TP311.52
- 垂直搜索引擎关键技术的研究与实现,TP311.52
- 基于人工生命的蜂群行为的仿真与研究,TP391.3
- 基于观点挖掘的产品可用性建模与评价,F274
- 网络舆情热点事件中的网民行为研究,G206
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 公众论坛信息实时检索的研究与实现,TP391.3
- 网络舆情信息采集系统的设计与实现,TP393.09
- 网络热点新闻事件中的群体心理分析,G206
- 变锥形管道参数测量中的信息获取与控制技术,TP274
- 基于垂直搜索技术的竞争情报采集系统的设计与实现,TP391.3
- 基于学习的恶意网页智能检测系统,TP393.08
- BBS舆情智能分析系统研究与实现,TP393.094
- 大学生获取信息方式的转变与高校思想政治教育的对策,G641
- 数字图书馆开发中信息资源的发现与获取技术及实现条件研究,G250.76
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于LMS的数字煤场系统的研究,TM621
- 产品快速配置系统的研究与开发,TH122
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|