学位论文 > 优秀研究生学位论文题录展示

面向论坛回帖的文本倾向性分析研究

作 者: 陆彬
导 师: 郭捷;刘功申
学 校: 上海交通大学
专 业: 计算机应用技术
关键词: 论坛回帖 文本倾向性 信息安全 论坛楼层结构 论坛用语
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 58次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的快速发展,网络论坛已经成为了网络时代的重要组成部分。在论坛中,主题帖固然重要,然而多数人都是通过对所关心的主题帖进行回帖来表达自身的观点,因此论坛中的回帖往往更能反映出社会的舆论倾向。要对网络论坛中的回帖进行准确的情感倾向性分析,就必须要把握论坛中的特点,本文首先分析了论坛回帖中的特点,如楼层的层次关系、论坛回帖的语言特点等。本文以论坛回帖为研究对象,提出了一种结合论坛回帖的特点的基于论坛楼层结构的倾向性分析系统,该系统首先提取所需分析的论坛页面的源代码并进行预处理,得出论坛回帖的楼层层次结构形态及各楼层文本内容。接着对各楼层回帖中无意义帖子进行判断,对于长帖子,还要判断其是否与主题帖相关,然后通过机器学习的方法进行分类。对于短帖子,则进行分词以及语法分析操作,结合预先根据论坛回帖语言特点整理得到的情感词词库以及其他常用词库,对短帖进行倾向性分析。最后,根据单个回帖的倾向性以及之前建立的楼层层次结构,得出并统计出主题帖下所有回帖的情感倾向性。实验表明,新系统的判别准确率在80%左右,具有良好的应用前景。

全文目录


摘要  3-4
ABSTRACT  4-8
第一章 绪论  8-15
  1.1 研究背景  8-9
  1.2 研究难点  9-11
    1.2.1 文本倾向性分析方面的研究难点  9-10
    1.2.2 中文论坛的情感倾向性分析的研究难点  10-11
  1.3 国内外研究现状  11-13
  1.4 主要工作  13-14
  1.5 本文组织结构  14
  1.6 本章小结  14-15
第二章 文本分类技术基础  15-32
  2.1 文本分类系统概述  15-17
  2.2 文本分类的数学模型  17-18
  2.3 文本预处理  18-19
  2.4 文本特征选取  19-22
    2.4.1 文档频率法  19-20
    2.4.2 信息增益法  20-21
    2.4.3 χ~2统计量法  21-22
    2.4.4 互信息法  22
  2.5 文本特征权重计算  22-23
  2.6 文本分类器  23-26
    2.6.1 朴素贝叶斯分类器  23-25
    2.6.2 基于支持向量机的分类器  25-26
    2.6.3 k-最邻近法  26
  2.7 文本分类评估  26-29
  2.8 常用知识库  29-31
    2.8.1 WordNet  29-30
    2.8.2 知网  30-31
    2.8.3 情感词典  31
  2.9 本章小结  31-32
第三章 论坛回帖行文特征分析  32-38
  3.1 论坛基本环境  32-33
  3.2 网络语言特点  33-35
  3.3 论坛回帖的特点  35-37
  3.4 本章小结  37-38
第四章 论坛回帖倾向性分析研究  38-60
  4.1 论坛页面预处理  38-43
    4.1.1 论坛页面源代码下载  39-40
    4.1.2 多网页源代码合并  40-41
    4.1.3 源代码中提取关键结构信息  41
    4.1.4 建立楼层层次结构树  41-42
    4.1.5 回帖信息链式存储  42-43
  4.2 回帖倾向性值分析  43-59
    4.2.1 论坛回帖文本预操作  45-48
    4.2.2 长回帖文本分类  48-49
    4.2.3 短回帖文本分类  49-59
  4.3 回帖倾向性结果计算  59
  4.4 本章小结  59-60
第五章 系统与测试  60-67
  5.1 程序系统演示  60-62
  5.2 论坛代表性话题的倾向性统计  62-63
  5.3 测试结果及分析  63-66
    5.3.1 评价方法  63-64
    5.3.2 结果分析  64-66
  5.4 本章小结  66-67
第六章 结论与展望  67-69
  6.1 主要结论  67
  6.2 研究展望  67-69
参考文献  69-72
致谢  72-73
攻读硕士学位期间已发表或录用的论文  73-75

相似论文

  1. 矢量CAD电子图纸保护系统研究,TP391.72
  2. 我国涉密电子政务网信息安全建设对策的研究,D630
  3. 一种FFTT非对称加解密算法的研究与实现,TP309.7
  4. C公司信息安全管理研究,F270.7
  5. A供电公司信息管理安全与防范对策研究,F426.61
  6. 物联网安全技术的研究与应用,TN929.5
  7. 数字信息资源安全风险评估体系的构建,G353.1
  8. 在线招投标系统信息安全的设计与实现,TP393.08
  9. 移动AdHoc网网的入侵检检:基于时时有限状状自动机方法,TN929.5
  10. 电力企业信息安全策略研究与实现,TP393.08
  11. 数字化变电站系统可靠性及安全性研究,TM732
  12. 面向存储器完整性验证的Cache设计,TP332
  13. 基于分数梅林变换的光学图像加密算法,TP309.7
  14. 理性秘密共享技术研究,TN918.1
  15. 基于过滤驱动的磁盘数据恢复模型研究与实现,TP333.35
  16. CPS技术与无线感知网结合的社区和个人数字医疗实施,TP399-C8
  17. Rootkit技术在第三方信息安全防护系统中的应用研究,TP309
  18. 电信运营企业信息安全项目风险管理研究,F626
  19. 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
  20. 基于风险熵和马尔可夫链方法的移动自组网安全风险评估与系统实现,TN929.5
  21. 通用终端环境下移动存储介质信息安全通道的设计与实现,TP309

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com