学位论文 > 优秀研究生学位论文题录展示

面向金融领域BBS的话题发现和热度评价

作 者: 王岩
导 师: 王晓龙;陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 金融BBS 信息提取 特征选择 文本聚类 热度评价
分类号: TP393.094
类 型: 硕士论文
年 份: 2010年
下 载: 107次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网的出现与发展,使信息资源从贫乏时代进入到极度丰富的时代。伴随着互联网的迅速发展,BBS早已成为人们发表言论,交流信息的重要场所。当今世界经济的飞速发展,人们开始热衷于股票、债券、基金等金融领域的投资,如何能及时准确地获得当前人们最关心,最热门的金融话题是每一个网民都十分关注的。通过设计并实现面向金融领域BBS的热点发现和热度评价系统可以有效解决上述问题。本文在充分考虑了金融BBS的文本组织结构和文本的预处理方法的基础上,主要研究了面向金融BBS热点话题发现方法和热度评价方法。本文的主要内容有:(1)对BBS数据进行抽取以及进行相关预处理:通过研究传统的信息抽取方法,结合金融BBS帖子页面的结构特性,提出了基于最大重复DOM树的BBS数据抽取方法。实验结果表明,该算法能够有效地提取金融BBS帖子的有效信息。(2)提出一种针对金融BBS文本特性的特征选择方法。考虑到金融BBS既有BBS文本的特征又有金融词汇主题相关性的特征,提出了BTF*IDF算法以满足对金融BBS的特征选择。实验结果表明,相对于传统的特征提取方法,本文的方法能够更好的完成特征选择的任务。(3)提出一种基于时间演化理论的增量聚类算法。与传统的聚类算法相比,该算法在文本聚类的过程中结合了话题演化的生命周期。实验结果表明,该算法能够有效地优化话题发现的结果集,提高话题发现的质量。(4)采用基于用户关注度和话题时效性的热度评价算法。通过在热度评分算法中融入了用户关注度、话题时效性的计算,有效地与文本聚类算法进行结合。实验结果表明,该算法能够综合评估话题热度,形成热点话题排序。基于以上研究成果,本文设计了金融BBS话题发现和热度评价系统,能够有效地为广大网民提供最新、最热的金融BBS热点话题,使网民可以在浩瀚的网络信息中快速掌握民众所关心的金融类BBS热点话题。

全文目录


摘要  4-5
Abstract  5-10
第1章 绪论  10-15
  1.1 课题背景  10
  1.2 课题研究目的与意义  10-11
  1.3 国内外研究现状  11-14
    1.3.1 话题检测与追踪的研究现状  11-13
    1.3.2 论坛话题检测的研究现状  13-14
  1.4 论文主要内容与组织结构  14-15
第2章 相关技术  15-21
  2.1 BBS数据挖掘  15-17
    2.1.1 通用爬虫  15-16
    2.1.2 BBS爬虫  16-17
  2.2 文本处理技术  17-20
    2.2.1 信息抽取技术  17
    2.2.2 文本的表示和特征的选取  17-18
    2.2.3 文本分类  18-19
    2.2.4 文本聚类  19-20
  2.3 本章小结  20-21
第3章 BBS文本提取与预处理方法  21-36
  3.1 相关技术介绍  21-26
    3.1.1 Web页面抽取技术  21-22
    3.1.2 HTML简介  22-23
    3.1.3 文档树对象模型  23-25
    3.1.4 BBS网页结构特征  25-26
  3.2 BBS网页信息抽取  26-29
    3.2.1 基于最大重复DOM树的信息抽取算法  27-28
    3.2.2 信息的存储  28-29
  3.3 BBS文本预处理  29-32
    3.3.1 中文分词  29-30
    3.3.2 文本特征的选择  30-31
    3.3.3 金融BBS帖子文本的特性分析  31
    3.3.4 金融BBS帖子文本的特性选择算法  31-32
  3.4 实验与分析  32-35
    3.4.1 实验数据集  32
    3.4.2 有效信息获取评测  32-33
    3.4.3 有效信息获取实验结果及分析  33-34
    3.4.4 文本特征选择结果及分析  34-35
  3.5 本章小结  35-36
第4章 热点话题发现  36-54
  4.1 引言  36
  4.2 话题模型定义  36-37
  4.3 基于演化理论的增量聚类算法  37-44
    4.3.1 时间演化理论  38-39
    4.3.2 算法基本原理  39-41
    4.3.3 基于演化理论的增量聚类算法  41-44
  4.4 基于BBS文本特征的话题热度算法  44-47
    4.4.1 话题关注度  45
    4.4.2 话题时效度  45-46
    4.4.3 话题热度算法  46-47
  4.5 实验与分析  47-53
    4.5.1 实验环境  47
    4.5.2 实验数据  47-48
    4.5.3 评测标准  48-49
    4.5.4 话题发现结果分析  49-53
  4.6 本章小结  53-54
第5章 系统设计与实现  54-60
  5.1 引言  54
  5.2 系统框架  54-58
    5.2.1 数据获取模块  55
    5.2.2 信息抽取模块  55-56
    5.2.3 文本预处理模块  56-57
    5.2.4 话题发现模块  57
    5.2.5 热度评价模块  57-58
    5.2.6 数据库模块  58
  5.3 系统展示  58-59
    5.3.1 开发平台及工具  58
    5.3.2 可视化功能  58-59
  5.4 本章小结  59-60
结语  60-61
参考文献  61-67
致谢  67

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 唇读中的特征提取、选择与融合,TP391.41
  4. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  5. 语音情感识别的特征选择与特征产生,TP18
  6. 演化聚类算法及其应用研究,TP311.13
  7. 环青海湖区沙漠化土地景观格局变化分析,X171
  8. 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
  9. 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
  10. 基于数据分布特征的文本分类研究,TP391.1
  11. 基于本体的食品投诉文档文本聚类研究,TP391.1
  12. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  13. 基于AdaBoost算法的人脸识别研究,TP391.41
  14. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  15. 面向短消息文本的聚类技术研究与应用,TP391.1
  16. 教育新闻热点话题发现系统的设计与实现,TP391.1
  17. 工程新闻报道的信息提取及应用研究,G212
  18. Web新闻热点发现系统的设计与实现,TP393.09
  19. 船体分段的机器人焊接路径规划与离线编程,TP242
  20. 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
  21. 基于群体智能的医学图像特征优化算法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 远程登录(Telnet)
© 2012 www.xueweilunwen.com