学位论文 > 优秀研究生学位论文题录展示
基于共现链的微博情感分析技术的研究与实现
作 者: 王岩
导 师: 周斌
学 校: 国防科学技术大学
专 业: 计算机技术
关键词: 网络舆情 微博 共现链 倾向性分析 意见挖掘
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 324次
引 用: 1次
阅 读: 论文下载
内容摘要
本文在研究了文本倾向性分析技术发展现状的基础上,创新性地提出了一种基于共现链的微博倾向性分析算法。首先利用微博数据富含链接信息的优势,将文档解析成文档链。然后利用文本表示模型对文档链进行模型表示,根据预先设定的共现度阈值采用聚类方法抽取出同一主题的不同刻面,并对每个刻面采用基于语义的改进SBV极性算法分析其倾向性。根据微博本身特殊性,本文提出了两个启发式思想。一是话题模型只采用名词和动词表示,忽略形容词和副词;二是仅长文本具有生成新的话题刻面的资格,短文本只参与话题聚类而不能产生新类。本文旨在研究针对微博的倾向性分析中的话题评价对象抽取算法,主要研究内容如下:(1)面向微博的大规模分布式爬虫技术。针对微博特殊性,设计并实现大规模分布式爬虫,快速高效采集和获取特定话题语料。(2)基于网页的元数据解析技术。通过制定高效可扩展专用模板,对HTML进行元数据抽取,并根据微博数据中回复的明显标志,显示形成文档链。(3)基于共现链的微博倾向性分析技术。结合TDT(Topic detection and tracking)话题发现与追踪中的向量空间模型和余弦相似度,将文档链模型化。设定共现度阈值,完成话题刻面的抽取。基于语句级情感分析算法,分析倾向性。(4)设计并实现针对新浪微博的倾向性分析原型系统。通过新浪微博提供的API和大规模分布式爬虫技术,基于启发式共现链算法,有效发现倾向性分析评价对象即话题刻面,并进一步进行情感分析。
|
全文目录
摘要 8-9 ABSTRACT 9-10 第一章 绪论 10-19 1.1 研究背景 10-13 1.2 研究现状及分析 13-17 1.2.1 微博的发展现状 13-14 1.2.2 情感分析的发展现状 14-16 1.2.3 微博情感分析的发展及重要意义 16-17 1.3 研究的目的和研究内容 17-18 1.3.1 研究目的 17 1.3.2 研究内容 17-18 1.4 论文结构 18-19 第二章 相关研究 19-30 2.1 网络爬虫 19-21 2.2 网页解析 21-26 2.2.1 网页解析研究方法 21-24 2.2.2 HTML Parser 解析页面 24-26 2.3 话题模型 26-29 2.3.1 向量空间模型 26-28 2.3.2 相似度计算 28-29 2.4 本章小结 29-30 第三章 基于共现链的微博情感分析 30-40 3.1 情感分析 30-35 3.1.1 情感信息抽取 32-33 3.1.2 情感信息分类 33-34 3.1.3 情感信息的检索与归纳 34-35 3.2 文档链解析 35-36 3.3 共现链合并 36-38 3.4 基于共现链的情感分析 38-39 3.5 本章小结 39-40 第四章 实验设计与结果分析 40-50 4.1 系统设计 40-41 4.2 数据采集 41-44 4.3 网页解析 44-46 4.3.1 信息过滤与去重 44-45 4.3.2 网页模板定制 45 4.3.3 基于网页的元数据抽取 45-46 4.4 结果分析 46-49 4.5 本章小结 49-50 第五章 结束语 50-51 致谢 51-53 参考文献 53-58 作者在学期间取得的学术成果 58 作者在学期间参加的科研工作 58
|
相似论文
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 风险视角下新浪微博融资行为研究,F49
- 当代广告舆论化现象研究,G206
- 微博:草根话语权的假象,G206
- 中国区域性网上社区的舆情研究,G206
- 网络舆情的形成机制研究,G206
- 基于微博构建的公共领域研究,G206
- 论微博的公民话语权,G206
- 论微博客中的网络公众聚集现象,G206
- 微博著作权保护问题初探,D923.41
- 针对教育视频的虚拟学习社区设计与实现,G434
- 基于微博客的社区挖掘研究,TP393.092
- 基于网络舆情的企业危机管理研究,G206
- 社会焦点事件网络舆情演变研究,G206
- 网络舆情热点事件中的网民行为研究,G206
- 微博在危机事件中的传播特点和效果研究,G206
- “围脖”:用什么温暖大众?,G206
- 微博客的虚拟社群及其“人际化”传播分析,G206
- 微博客的传播特征及社会影响分析,G206
- 微博在企业内部传播中的适用性研究,F272
- 中国微博客的发展困境和策略研究,G206
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|