学位论文 > 优秀研究生学位论文题录展示
面向网络新闻的话题检测技术研究
作 者: 赵爱华
导 师: 刘培玉
学 校: 山东师范大学
专 业: 通信与信息系统
关键词: 话题检测 向量空间模型 文本聚类 子话题划分 相似度计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 95次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的飞速发展,网络作为一种新的媒体,成为人们获取信息的重要渠道。面对海量的网络新闻信息,如何快速准确的获取到热点新闻话题,并对这些新闻信息进行有效地组织和分析,是当前信息处理领域研究的重点和热点。话题检测与追踪技术作为解决这一问题的关键技术,旨在从网络新闻媒体信息流中及时发现未知话题,并对已知话题进行后续跟踪。该技术能够以话题为主线,自动将分散的信息聚合起来,以方便人们从整体上了解一个事件的全部细节以及相关活动,在信息安全、金融证券、行业调研等诸多领域都具有广阔的应用空间和发展前景。本文总结了话题检测技术的国内外研究现状,分析了目前话题检测技术面临的问题并给出了本文的研究思路。在研究的过程中,对其中涉及到的关键技术做了详细的介绍,并结合本文的研究思路对在线话题检测技术进行了深入探讨,本文所做工作如下:第一,对话题模型的构建做了深入研究。本文结合网络新闻报道的特点,充分考虑报道的标题和正文这两部分内容,采用双向量对报道的标题和正文分别进行文本表示,充分突出了报道标题的重要性,提高了检测的效率;采用中心向量模型来构建话题模型,当话题内有新的报道加入时,则重新计算话题模型内每个特征的权重,从而动态的调整话题模型,达到了在线实时检测的目的。第二,提出了一种基于核心词簇的网络热点话题发现算法。本文针对single-pass聚类算法存在的不足,在聚类过程中,采用两层聚类策略,首先根据报道的标题向量进行微聚类,及时发现新出现的话题,并将达到预设条件的报道加入到相应话题的候选集中,然后对候选集里的报道进行二次聚类,通过话题热度分析,最终得到网络上某时间段内的热点话题。实验结果表明,本文的方法在识别性能和准确率上均有所提高。第三,提出了一种基于LDA的新闻话题子话题划分方法。本文针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,采用层次话题检测技术,应用LDA模型对新闻文档进行建模,引入主题特征词相关性分析,并采用KL距离和主题间特征词的相关性组合,计算话题之间相似度,实现子话题划分。实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率。
|
全文目录
摘要 6-7 Abstract 7-9 第一章 绪论 9-13 1.1 课题背景和研究意义 9 1.2 国内外相关技术及研究现状 9-11 1.3 本文主要内容及创新点 11-12 1.4 论文的组织和安排 12-13 第二章 话题检测相关技术 13-23 2.1 话题检测技术概述 13-14 2.1.1 基本概念 13 2.1.2 话题检测基本流程 13-14 2.2 文本表示模型 14-18 2.2.1 布尔模型 14-15 2.2.2 概率模型 15-16 2.2.3 向量空间模型 16-17 2.2.4 LDA 主题模型 17-18 2.3 相似度计算方法 18-20 2.3.1 文档相似度计算 18-19 2.3.2 类簇相似度计算 19-20 2.4 文本聚类算法 20-22 2.4.1 层次聚类算法 20-21 2.4.2 基于划分的聚类算法 21-22 2.4.3 增量聚类算法 22 2.5 小结 22-23 第三章 基于核心词簇的网络热点话题发现 23-32 3.1 相关工作 23-24 3.2 热点话题发现模型 24-27 3.2.1 报道/话题模型 24-25 3.2.2 核心词簇 25-26 3.2.3 相似度计算公式 26 3.2.4 话题热度评估 26-27 3.3 基于核心词簇的热点话题发现算法 27-28 3.3.1 算法思想 27 3.3.2 算法描述 27-28 3.4 实验与分析 28-31 3.4.1 实验语料 28 3.4.2 评价指标 28-29 3.4.3 实验结果与分析 29-31 3.5 小结 31-32 第四章 基于 LDA 的新闻话题子话题划分方法 32-42 4.1 相关工作 32-33 4.2 文本表示 33-34 4.2.1 LDA 文档建模过程 33 4.2.2 确定最优主题数 33-34 4.3 改进的相似度计算方法 34-36 4.4 基于 LDA 的子话题划分算法 36-37 4.4.1 聚类策略 36 4.4.2 子话题划分步骤 36-37 4.5 实验及分析 37-41 4.5.1 实验语料 37-38 4.5.2 评测指标 38 4.5.3 实验结果与分析 38-41 4.6 小结 41-42 第五章 总结与展望 42-44 5.1 总结 42 5.2 展望 42-44 参考文献 44-47 攻硕期间发表论文及科研成果 47-48 致谢 48
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 演化聚类算法及其应用研究,TP311.13
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于球面调和的三维模型检索系统研究与实现,TP391.41
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于概率主题模型的中文话题检测与追踪研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 互联网新闻热点挖掘系统的研究与实现,TP393.09
- 网络热点事件挖掘及特征描述研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|