学位论文 > 优秀研究生学位论文题录展示

基于事件网络的话题跟踪研究

作 者: 王东
导 师: 刘炜
学 校: 上海大学
专 业: 计算机应用技术
关键词: 事件网络 事件本体 子话题划分 话题跟踪
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 3次
引 用: 0次
阅 读: 论文下载
 

内容摘要


话题检测与跟踪是(Topic Detection and Tracking, TDT)是一项针对新闻报道进行信息识别、数据挖掘和组织的技术,其目的是对互联网上的信息进行有目的的筛选、过滤,从而提高人们获取有用信息的效率。在话题跟踪任务中,文本表示模型是话题跟踪的基础。而传统的文本表示模型主要是基于词频统计的,这种方法有两个主要缺点:1.基于词频统计的方法缺乏必要的语义信息,而文本的语义表示是目前进一步提高判定效果的瓶颈;2.在实时新闻的话题跟踪中,话题的重心随着时间而变化,传统的话题模型难以对话题模型进行有效地更新。通过对新闻报道的分析发现,事件是贯穿一篇文章和话题的主要线索。若把事件作为文章描述的基本单位,事件与事件之间的关系看作描述事情发展的脉络关系,则可以用它们建立的事件网络结构来表示文本和话题内容。相对于传统的词频统计方法,事件网络使用形式化的方法来表示文本。一方面网络中的事件节点具有一定的语义表达,其包含了人物、时间、地点等要素信息,另一方面事件关系能够从多个角度建立语义单位之间的关系,描述整篇文章的内容。在话题更新上,事件网络能够通过事件和事件要素的相关性,将事件节点添加或者删除来进行网络结构更新,以有效解决话题中心偏移问题。本文在分析已有文本表示模型和话题跟踪方法所存在问题的基础上,建立了一个基于事件网络的文本表示模型,将其运用于话题跟踪任务中。重点包括基于事件本体的文本事件信息抽取方法,事件要素抽取和事件关系的建立;事件、子话题、话题所组成的三层话题结构和子话题的划分算法;以及基于事件网络的话题跟踪模型的建立。本文的主要贡献如下:(1)建立一种基于事件的本体层次结构和相关的突发事件本体库,其是对事件类和事件类关系的形式化表示。在此事件本体的基础上,提出了基于事件本体的事件要素抽取算法。其中包括了事件本体中事件类的划分、事件要素的填充规则,以及事件要素推理的算法。(2)提出了一种基于事件网络的文本和话题表示模型,并把话题分为三层:事件、子话题、话题,并给出了一个基于事件网络的子话题划分算法。此划分算法运用了最小生成树的生成方法来提取出模型中较为重要的事件关系,设计了一个用于评价划分结果的目标函数,根据事件在最小生成树的分枝关系和边介度的最优解来得到最终的子话题划分结果。(3)提出了一个基于事件网络的话题跟踪方法。文本的粒度大小与本文的三层话题模型中子话题的粒度相当,通过子话题的相似度来判定话题跟踪结果。在这种子话题相似度计算的基础上,通过事件要素来建立话题和新闻报道的关联,使用这种关联来解决话题模型的自动更新问题。以上工作运用事件网络来代替传统的文本表示方法,使得在文本表示上考虑到文章的语义信息,有效地组织文章的结构;把话题模型分成事件、子话题、话题三层结构,将话题和报道的相似度在子话题层上进行比较可以解决两者描述粒度不一致的问题;运用图论或网络计算方法对重要事件进行提取,建立事件向量来进行相似度计算,以及网络模型的更新使事件网络模型在上有效解决话题跟踪中的话题中心偏移问题。

全文目录


摘要  6-8
ABSTRACT  8-13
第一章 绪论  13-21
  1.1 课题来源  13
  1.2 课题研究的目的和意义  13-14
  1.3 国内外研究概况  14-20
    1.3.1 话题检测与跟踪的主要任务  14-16
    1.3.2 传统话题跟踪的研究  16-18
    1.3.3 自适应话题跟踪的研究  18-20
  1.4 论文的主要研究内容  20-21
第二章 基于事件网络的文本表示模型  21-32
  2.1 引言  21
  2.2 文本表示模型概述  21-25
    2.2.1 传统文本表示介绍  21-24
    2.2.2 传统文本表示方法的缺陷  24-25
  2.3 基于事件网络的文本表示模型  25-31
    2.3.1 事件  25-27
    2.3.2 事件本体  27-28
    2.3.3 事件关系  28-30
    2.3.4 事件网络  30-31
  2.4 小结  31-32
第三章 基于事件本体的事件要素抽取方法  32-45
  3.1 事件本体中事件类的层次结构  32-35
  3.2 事件要素的补全  35-36
  3.3 事件要素推理规则的定义  36-38
  3.4 事件要素补全算法  38-40
  3.5 实验和分析  40-44
  3.6 小结  44-45
第四章 基于事件网络的话题层次结构  45-58
  4.1 引言  45
  4.2 话题的层次结构  45-47
    4.2.1 基本概念  45
    4.2.2 三层话题结构的提出  45-47
  4.3 突发事件领域的事件网络构建  47-50
    4.3.1 突发事件语料库  47
    4.3.2 单文本事件网络的建立  47-48
    4.3.3 多文本事件网络的建立  48-49
    4.3.4 事件关系的定量表示  49-50
  4.4 基于最小生成树的子话题划分算法  50-55
    4.4.1 网络社区  50-51
    4.4.2 MST 社区划分算法  51-54
    4.4.3 算法的效率分析  54-55
  4.5 子话题划分算法的实验结果  55-57
    4.5.1 实验语料与评价标准  55
    4.5.2 实验结果与分析  55-57
  4.6 小结  57-58
第五章 事件网络模型在话题跟踪中的应用研究  58-70
  5.1 引言  58
  5.2 话题跟踪系统模型的建立  58-62
    5.2.1 语料获取和预处理模块  59
    5.2.2 文本和话题模型表示模块  59-60
    5.2.3 子话题划分模块  60
    5.2.4 话题跟踪模块  60-62
  5.3 话题模型的更新  62
  5.4 实验和分析  62-69
    5.4.1 实验语料  62-63
    5.4.2 实验评测  63-64
    5.4.3 实验设计  64
    5.4.4 实验结果和分析  64-69
  5.5 小结  69-70
第六章 结论与展望  70-73
  6.1 结论  70-71
  6.2 展望  71-73
参考文献  73-77
作者在攻读硕士学位期间公开发表的论文  77-78
作者在攻读硕士学位期间所作的项目  78-79
致谢  79

相似论文

  1. 人物言论抽取与跟踪技术研究,TP391.1
  2. 基于网络论坛的社会公共事件传播研究,G206
  3. 高校突发事件网络舆情预警机制探究,G647
  4. 社会焦点事件网络舆情演变研究,G206
  5. 群体性事件的网络舆情及其治理,G206
  6. 从网络热点事件看网络舆论演化,G206
  7. 公共事件的网络舆论流变及其引导研究,G206
  8. 网络时代科学传播在公共事件中的传播特点及影响研究,G301
  9. 网络暴力事件与网络围观,G206
  10. 网络群体事件的影响和应对策略初探,G206
  11. 突发性事件的网络舆论传播与控制,G206
  12. 基于话题检测与跟踪的话题搜索技术研究,TP391.3
  13. 热点新闻事件中产生的网络流行语现象研究,H109.4
  14. 食品安全事件中的网络舆论监督,F203
  15. 基于SVM的突发事件新闻话题跟踪方法研究,TP391.1
  16. 武警部队舆情监测系统设计和实现,TP393.09
  17. 中文微博客热点话题检测与跟踪技术研究,TP391.1
  18. 面向网络信息监测的群体性事件本体构建及应用研究,D631.4
  19. 基于知网和话题更新的话题跟踪算法研究,TP391.1
  20. 基于QoS的语义Web服务监控的研究,TP393.09
  21. 心物区别的本体论辨析,B842

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com