学位论文 > 优秀研究生学位论文题录展示
面向金融领域BBS的话题发现和热度评价
作 者: 王岩
导 师: 王晓龙;陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 金融BBS 信息提取 特征选择 文本聚类 热度评价
分类号: TP393.094
类 型: 硕士论文
年 份: 2010年
下 载: 107次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网的出现与发展,使信息资源从贫乏时代进入到极度丰富的时代。伴随着互联网的迅速发展,BBS早已成为人们发表言论,交流信息的重要场所。当今世界经济的飞速发展,人们开始热衷于股票、债券、基金等金融领域的投资,如何能及时准确地获得当前人们最关心,最热门的金融话题是每一个网民都十分关注的。通过设计并实现面向金融领域BBS的热点发现和热度评价系统可以有效解决上述问题。本文在充分考虑了金融BBS的文本组织结构和文本的预处理方法的基础上,主要研究了面向金融BBS热点话题发现方法和热度评价方法。本文的主要内容有:(1)对BBS数据进行抽取以及进行相关预处理:通过研究传统的信息抽取方法,结合金融BBS帖子页面的结构特性,提出了基于最大重复DOM树的BBS数据抽取方法。实验结果表明,该算法能够有效地提取金融BBS帖子的有效信息。(2)提出一种针对金融BBS文本特性的特征选择方法。考虑到金融BBS既有BBS文本的特征又有金融词汇主题相关性的特征,提出了BTF*IDF算法以满足对金融BBS的特征选择。实验结果表明,相对于传统的特征提取方法,本文的方法能够更好的完成特征选择的任务。(3)提出一种基于时间演化理论的增量聚类算法。与传统的聚类算法相比,该算法在文本聚类的过程中结合了话题演化的生命周期。实验结果表明,该算法能够有效地优化话题发现的结果集,提高话题发现的质量。(4)采用基于用户关注度和话题时效性的热度评价算法。通过在热度评分算法中融入了用户关注度、话题时效性的计算,有效地与文本聚类算法进行结合。实验结果表明,该算法能够综合评估话题热度,形成热点话题排序。基于以上研究成果,本文设计了金融BBS话题发现和热度评价系统,能够有效地为广大网民提供最新、最热的金融BBS热点话题,使网民可以在浩瀚的网络信息中快速掌握民众所关心的金融类BBS热点话题。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-15 1.1 课题背景 10 1.2 课题研究目的与意义 10-11 1.3 国内外研究现状 11-14 1.3.1 话题检测与追踪的研究现状 11-13 1.3.2 论坛话题检测的研究现状 13-14 1.4 论文主要内容与组织结构 14-15 第2章 相关技术 15-21 2.1 BBS数据挖掘 15-17 2.1.1 通用爬虫 15-16 2.1.2 BBS爬虫 16-17 2.2 文本处理技术 17-20 2.2.1 信息抽取技术 17 2.2.2 文本的表示和特征的选取 17-18 2.2.3 文本分类 18-19 2.2.4 文本聚类 19-20 2.3 本章小结 20-21 第3章 BBS文本提取与预处理方法 21-36 3.1 相关技术介绍 21-26 3.1.1 Web页面抽取技术 21-22 3.1.2 HTML简介 22-23 3.1.3 文档树对象模型 23-25 3.1.4 BBS网页结构特征 25-26 3.2 BBS网页信息抽取 26-29 3.2.1 基于最大重复DOM树的信息抽取算法 27-28 3.2.2 信息的存储 28-29 3.3 BBS文本预处理 29-32 3.3.1 中文分词 29-30 3.3.2 文本特征的选择 30-31 3.3.3 金融BBS帖子文本的特性分析 31 3.3.4 金融BBS帖子文本的特性选择算法 31-32 3.4 实验与分析 32-35 3.4.1 实验数据集 32 3.4.2 有效信息获取评测 32-33 3.4.3 有效信息获取实验结果及分析 33-34 3.4.4 文本特征选择结果及分析 34-35 3.5 本章小结 35-36 第4章 热点话题发现 36-54 4.1 引言 36 4.2 话题模型定义 36-37 4.3 基于演化理论的增量聚类算法 37-44 4.3.1 时间演化理论 38-39 4.3.2 算法基本原理 39-41 4.3.3 基于演化理论的增量聚类算法 41-44 4.4 基于BBS文本特征的话题热度算法 44-47 4.4.1 话题关注度 45 4.4.2 话题时效度 45-46 4.4.3 话题热度算法 46-47 4.5 实验与分析 47-53 4.5.1 实验环境 47 4.5.2 实验数据 47-48 4.5.3 评测标准 48-49 4.5.4 话题发现结果分析 49-53 4.6 本章小结 53-54 第5章 系统设计与实现 54-60 5.1 引言 54 5.2 系统框架 54-58 5.2.1 数据获取模块 55 5.2.2 信息抽取模块 55-56 5.2.3 文本预处理模块 56-57 5.2.4 话题发现模块 57 5.2.5 热度评价模块 57-58 5.2.6 数据库模块 58 5.3 系统展示 58-59 5.3.1 开发平台及工具 58 5.3.2 可视化功能 58-59 5.4 本章小结 59-60 结语 60-61 参考文献 61-67 致谢 67
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
- 语音情感识别的特征选择与特征产生,TP18
- 演化聚类算法及其应用研究,TP311.13
- 环青海湖区沙漠化土地景观格局变化分析,X171
- 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
- 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
- 基于数据分布特征的文本分类研究,TP391.1
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 工程新闻报道的信息提取及应用研究,G212
- Web新闻热点发现系统的设计与实现,TP393.09
- 船体分段的机器人焊接路径规划与离线编程,TP242
- 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
- 基于群体智能的医学图像特征优化算法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 远程登录(Telnet)
© 2012 www.xueweilunwen.com
|