学位论文 > 优秀研究生学位论文题录展示

基于SVM的突发事件新闻话题跟踪方法研究

作 者: 王强
导 师: 张永奎
学 校: 山西大学
专 业: 计算机应用技术
关键词: 突发事件 话题漂移 文本分类 相似度计算 话题跟踪
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 141次
引 用: 1次
阅 读: 论文下载
 

内容摘要


移动互联网的发展使得人们进入了一个信息极度丰富的时代。网络信息规模的急剧膨胀和凌乱无章,又使得人们对有价值信息的发现和管理变得越来越困难。突发事件的随机性和不确定性,使得决策者掌握的信息有可能不全面和不及时,并且在信息的反馈和处理过程中,信息的准确性和有效性也难以保证,导致信息失真。如何能全面准确地获取相关报道和突发事件的发展演变信息成为目前需要解决的问题。话题检测技术能从新闻报道流中自动检测出最新的新闻主题,并将新闻报道及时地按照话题组织起来;话题跟踪技术则能追踪特定的新闻主题。因此,话题检测和跟踪技术的应用将能有效地管理和组织新闻信息,满足人们对新闻信息的特殊需求。本文对突发事件的后续报道进行跟踪,根据用户事先确定的感兴趣的话题,对大规模的海量信息进行实时过滤,生成相关话题的持续进展情况,进而掌握事件的全貌。本文采用构建多个子向量的多向量空间模型的方法来表示突发事件新闻文档。在对常见的文本分类算法分析的基础上,采用了基于SVM分类算法的方法实现了话题跟踪系统。针对话题跟踪过程中话题本身的漂移现象,提出了改进的话题跟踪系统,对跟踪过程中伪相关反馈包含的新颖信息进行检测和建模,并在此基础上使用多向量空间模型动态调整话题空间,以跟踪话题漂移,降低漏检率。本文的主要工作有:1.对已经下载加工好的突发事件新闻语料进行分析,采用词语作为候选特征并将特征词划分为五类(人名、时间名、地点名、组织机构名、内容)并形成五个子向量,用五个子向量空间模型来表示新闻文档。计算时间相似度和地点相似度计算的时候分别采用了报道时间距离和关联度的计算方法,同时在特征词的权重计算时考虑了特征词的位置信息。最后把突发事件文本的信息分为两类,即客观信息和主观信息,为进一步研究奠定理论基础。2.在报道关联检测中,采用了多向量模型构建和基于SVM的分类算法相结合的方法进行检测,取得了较好的效果。3.针对话题跟踪过程中话题本身的漂移现象,采用改进的基于核心和新颖部分的方法构建了话题跟踪系统。4.设计了一个可以实现报道关联检测和话题跟踪的实验系统,能够较好的识别既定话题的后续报道。最后,我们从收集加工好的突发事件新闻语料中选择了10个话题共260篇报道进行了对比测试,来验证我们提出的方法的可行性和有效性。实验结果表明本文所提出的方法在一定程度上提高了突发事件话题跟踪系统的效率。

全文目录


中文摘要  8-10
ABSTRACT  10-12
第一章 引言  12-18
  1.1 课题研究背景  12
  1.2 话题跟踪研究目的和意义  12-14
  1.3 话题跟踪的国内外研究现状  14-15
  1.4 论文的主要工作和组织结构  15-18
    1.4.1 主要工作  15
    1.4.2 论文结构  15-18
第二章 话题检测跟踪技术  18-22
  2.1 话题检测跟踪概述  18-19
    2.1.1 TDT基本概念  18-19
    2.1.2 TDT任务划分  19
  2.2 话题跟踪与相关技术的异同  19-20
  2.3 突发事件新闻文本分析  20-22
第三章 基于SVM的话题跟踪技术  22-30
  3.1 话题跟踪的常用方法  22-24
    3.1.1 基于KNN的话题跟踪技术  22-23
    3.1.2 基于查询向量的跟踪技术  23-24
  3.2 基于SVM的话题跟踪技术  24-30
    3.2.1 特征选择和特征权重的计算  24-25
    3.2.2 IDF和阈值的动态改变  25-26
    3.2.3 多向量文本表示模型  26
    3.2.4 向量相似度计算  26-28
    3.2.5 基于SVM的话题跟踪技术  28-30
第四章 基于核心和新颖部分的方法  30-36
  4.1 话题跟踪中的话题漂移现象  30
  4.2 话题漂移系统的分析  30-36
    4.2.1 系统各模块的功能  31-32
    4.2.2 核心和新颖部分的引入  32-34
    4.2.3 模型系统的构建  34-36
第五章 实验与实验结果评价  36-40
  5.1 实验评估方法  36
  5.2 实验设计  36-37
  5.3 实验结果与分析  37-40
第六章 结束语  40-42
  6.1 本文工作总结  40
  6.2 今后研究工作方向  40-42
参考文献  42-45
致谢  45-46
发表文章目录  46-47
个人简况  47-48

相似论文

  1. 多邮件自动文摘的关键技术研究,TP391.1
  2. 人物言论抽取与跟踪技术研究,TP391.1
  3. 基于仿生模式识别的文本分类技术研究,TP391.1
  4. 基于相似度计算的编程题自动评判方法研究,TP312.1
  5. 我国公共危机管理研究,D630
  6. 政府应对突发事件机制研究,D630
  7. 突发公共事件中政府舆论引导存在的问题与对策研究,D630
  8. 论群体性突发事件治理中基层政府能力的提升,D630
  9. 政府与NGO应对灾害性突发公共事件协调机制的构建,D632.9
  10. 天津市涉外教育系统外国留学生管理问题研究,G648.9
  11. CBA联赛球场观众暴力突发事件应急管理研究,G843
  12. 水路交通突发事件应急物资配置研究,F224;U698
  13. 论我国环境应急管理的问题和对策,D925
  14. 地方综合性大学突发事件的应急管理,G647
  15. 新媒体时代交通广播的发展前景,G229.2
  16. 我国行政应急管理法律体系的建设及其完完善研究,D922.1
  17. 基于本体的中文科技论文分类研究,TP391.1
  18. 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
  19. XX通信网络公司非常规突发事件应急管理研究,F626
  20. 中学生物教师课堂教学机智观察与分析,G633.91
  21. 校园突发事件的思想政治教育应对研究,G641

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com