学位论文 > 优秀研究生学位论文题录展示

热点新闻间关系的研究

作 者: 程佳
导 师: 赵建军;周憬宇
学 校: 上海交通大学
专 业: 软件工程
关键词: TDT 搜索结果聚类 新闻聚类 相似性度量 模拟退火
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 7次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网逐渐发展成为人们获取新闻的重要来源,“Arab Spring”事件很好的说明了这点。每天都会有新闻产生,伴随着新闻事件的发展变化还会引申出相关的新闻话题。当用户对某一热点新闻事件感兴趣时,找出相关的新闻话题对于帮助用户快速从总体上理解整个新闻事件是很有意义的。目前,用户可以利用新闻网站专题栏目或新闻搜索引擎获取相关的新闻报道,通过对新闻报道的阅读,进而理解整个新闻事件。Google News等新闻搜索引擎由于新闻来源丰富能够克服新闻网站的媒体偏见性,但其作为检索工具所侧重的是结果与查询词串的相关性,返回结果中新闻之间的话题关系不明确。为此,本文主要研究如何识别出新闻搜索结果间的话题关系。解决该问题有两方面挑战:1)新闻搜索引擎返回结果的信息量很少,甚至有一些新闻搜索结果只有新闻标题没有文档片段;2)各个新闻搜索结果之间很相关,都是关于用户给定查询词串的新闻,这对于如何区分出不同的新闻话题增加了难度。本文对新闻搜索结果间的话题关系识别问题进行了研究,提出基于组合相似度的凝聚聚类算法构造相关的新闻话题。着重研究了新闻搜索结果之间的相似度计算方法:重叠相似度、词序相似度、语义相似度、话题权重相似度、第二层相似度、组合相似度,其中组合相似度计算方法的参数由模拟退火算法获得。提出将词语的话题权重(TF-IDF权重、IDF权重和显著权重)与相似度计算相结合以改进相似度计算方法有效性的思想和方法。并在来源于Google News的真实数据集上进行实验分析。以TDT研究中的“Normalized Detection Cost”为评价标准,本文提出的基于组合相似度的凝聚聚类算法较Google News的返回结果改进约44%。

全文目录


摘要  3-5
ABSTRACT  5-7
目录  7-9
第一章 绪论  9-15
  1.1 研究背景和意义  9-10
  1.2 国内外研究现状  10-12
    1.2.1 话题检测与跟踪的研究  10-11
    1.2.2 Web 搜索结果聚类的研究  11-12
  1.3 主要研究内容  12-14
  1.4 论文的组织结构  14
  1.5 本章小结  14-15
第二章 词语的话题权重计算方法  15-20
  2.1 概述  15
  2.2 动机  15-16
  2.3 TF-IDF 权重  16-17
  2.4 IDF 权重  17-18
  2.5 显著权重  18-19
  2.6 本章小结  19-20
第三章 相似度计算方法  20-30
  3.1 概述  20-21
  3.2 重叠相似度  21-22
  3.3 词序相似度  22-23
  3.4 语义相似度  23-27
    3.4.1 基于《知网》的词语相似度  23-24
    3.4.2 基于《同义词词林》(扩展版)的词语相似度  24-26
    3.4.3 语义相似度计算方法  26-27
  3.5 话题权重相似度  27
  3.6 第二层相似度  27-29
  3.7 组合相似度  29
  3.8 本章小结  29-30
第四章 话题关系识别  30-38
  4.1 概述  30
  4.2 正交聚类算法  30-31
  4.3 K-MEANS聚类算法  31-33
  4.4 凝聚聚类算法  33-34
  4.5 话题数  34-35
  4.6 参数确定  35-37
  4.7 本章小结  37-38
第五章 实验  38-59
  5.1 概述  38
  5.2 实验系统  38-41
  5.3 数据标注系统  41-42
  5.4 数据集  42-44
  5.5 评价标准  44-45
  5.6 话题关系识别效果  45-47
  5.7 算法时间分析  47-48
  5.8 相似度计算方法的有效性  48-58
    5.8.1 利用K-means 聚类算法评估  48-52
    5.8.2 利用凝聚聚类算法评估  52-56
    5.8.3 有效性分析  56-58
  5.9 本章小结  58-59
第六章 全文总结与展望  59-61
  6.1 全文总结  59-60
  6.2 工作展望  60-61
参考文献  61-64
附录1  64-68
致谢  68-69
攻读硕士学位期间已发表或录用的论文  69-71

相似论文

  1. 有源电力滤波器及其在配电网中的应用,TN713.8
  2. 面向三网融合的故障管理系统的研究及实现,TP315
  3. P2P网络信任模型及其相关技术的研究,TP393.08
  4. 单指派和多指派共存下含枢纽的物流网络设计,F252
  5. 基于本体多Agent系统的交易伙伴智能发现相关技术研究,F713.36
  6. 基于半监督哈希算法的图像检索方法研究,TP391.41
  7. 民用船舶管理系统的设计与实现,TP311.52
  8. 雷达遮盖式干扰及干扰资源优化分配研究,TN974
  9. 基于视图的三维模型检索技术研究,TP391.41
  10. 基于混合遗传算法的车间调度问题研究与应用,TP18
  11. 基于局部不变特征的图像匹配技术研究,TP391.41
  12. 人工萤火虫群优化算法改进及应用研究,TP18
  13. 图像配准技术与优化算法研究,TP391.41
  14. 基于OpenMP的遗传退火算法的并行化,TP301.6
  15. 造船厂钢板入库作业优化及钢板管理信息系统开发,F426.474
  16. 交通标志实时检测与识别技术研究,TP391.41
  17. 基于内容的图像检索技术研究,TP391.41
  18. 特殊结构取样光纤光栅的设计及调谐方法的研究,TN253
  19. 面向MES的铜板带生产调度模型及其优化研究,TP391.7
  20. 基于模拟退火法的输电网潮流图的自动布局研究,TM744

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com