学位论文 > 优秀研究生学位论文题录展示
基于Dirichlet过程混合模型的话题识别与追踪
作 者: 王婵
导 师: 王小捷
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 话题识别与追踪 话题识别 话题追踪 Dirichlet 过程混合模型 Gibbs抽样 话题先验知识
分类号: TP391.41
类 型: 博士论文
年 份: 2013年
下 载: 178次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网已成为当前人们获取新闻的一个重要途径。将已有各种新闻报道按话题进行分类,进而追踪特定话题的新报道返回给用户,不仅可以有效节省用户获取相关新闻的时间,也提供了一种基于话题对网络新闻数据进行有效组织的方式,有着广泛的现实需求。为达成此目的,需要解决两个关键问题:其一是如何将初始呈现给用户的新闻报道自动地依据其所涉及话题的异同进行分组,其二是如何自动判断新出现的报道是否属于某个已知话题或属于一个新话题。这两个问题分别是话题识别与话题追踪。对话题识别与追踪的研究已经有近二十年的历史,取得了不少进展,但是仍然存在一些问题。例如,话题识别任务中如何确定话题数量的问题,话题追踪任务面临的数据稀疏问题、话题漂移问题以及话题偏离问题。本文针对这些问题,分别对话题识别技术和话题追踪技术展开研究,在Dirichlet过程混合模型(DPMM)这个统一的模型框架下提出了一系列有效的解决方法,最后,通过综合这些解决方法提出了一个能满足节省用户新闻获取时间、对互联网新闻数据进行基于话题的组织等应用需求的系统方案。论文的主要工作和研究成果如下:(1)针对话题识别任务在先验知识缺乏时难以预先确定话题数目的问题,将DPMM引入话题识别研究中,提出了一个基于DPMM的话题识别模型。该模型无需预先给定话题数目,而是可以根据输入的新闻报道而自动确定。模型假设任一报道都对应一个话题分布,并将其中具有最大概率的话题作为这个报道的话题标签。实验表明,基于DPMM的话题识别模型可以得到比已有方法更好的识别性能,最低识别代价仅为0.0981,比基于传统聚类算法的话题识别模型降低了50%以上。(2)提出了一种考虑上下文信息的Gibbs抽样(C_Gibbs)方法,该方法在对某个词产生抽样概率时同时考虑其上下文中的其他词,以建模同一报道中的词间相关性。实验表明,与Gibbs抽样方法相比,基于C_Gibbs抽样方法进行参数推导可以大幅度提高识别系统的性能。(3)提出了一个能有效结合待测话题信息的DPMM进行静态话题追踪。模型在基于Gibbs抽样进行参数推理时融入待测话题信息,得到报道和各个待测话题的相关度。同时,对多次Gibbs抽样结果进行投票确定最后的话题追踪结果。实验结果表明,该模型只需要少量的种子报道,就可以显著提高话题追踪的性能,最低追踪代价仅为0.0723,比基于一元语言模型的话题追踪模型降低了45%。同时,该投票方法也保证了性能的稳定性。(4)针对话题追踪任务中存在的话题漂移问题以及已有自适应方法中存在的话题偏离现象,本文在基于DPMM的静态话题追踪模型的基础上,提出了一种新的自适应话题追踪方法。该方法的基本思想是在追踪过程中考虑追踪反馈,并在话题、报道相关度计算过程中为追踪反馈赋予一个M_reli参数,以控制不相关报道反馈带来的误差。实验结果表明,该方法不仅可以在一定程度上解决话题漂移问题,并可以有效地抑制已有自适应算法中的话题偏离现象。该模型最低追踪代价仅为0.0677,比静态话题模型降低了6%。(5)综合本文提出的一系列话题识别和追踪技术,设计了一个可以满足前述应用需求的话题识别与追踪系统方案。该系统首先利用话题识别和话题追踪技术将新闻报道流以报道簇为单位组织起来,每个报道簇对应一个话题,同时获取报道流中描述话题内容的标签,并将相关报道和标签同时呈现给用户,达到节省用户新闻获取时间、并基于话题对互联网新闻数据进行组织的目的。
|
全文目录
摘要 4-6 ABSTRACT 6-9 目录 9-12 图目 12-14 表目 14-16 第一章 绪论 16-30 1.1 研究背景及意义 16-18 1.2 TDT研究现状 18-26 1.2.1 TDT评测会议 18-20 1.2.2 TDT相关研究工作 20-26 1.3 本文主要工作 26-30 第二章 基础知识 30-47 2.1 TDT相关知识 30-39 2.1.1 基本概念 30-31 2.1.2 关键技术 31-38 2.1.3 评价语料和指标 38-39 2.2 狄利克雷过程 39-43 2.2.1 狄利克雷过程的定义 39-40 2.2.2 狄利克雷过程的描述方式 40-43 2.3 Dirichlet过程混合模型 43-46 2.3.1 模型描述 43-44 2.3.2 参数推导方法 44-46 2.4 总结 46-47 第三章 基于DPMM的话题识别 47-74 3.1 任务描述 47-48 3.2 基于DPMM的话题识别 48-59 3.2.1 词-话题分布信息的获取 49-53 3.2.1.1 Gibbs抽样 49-50 3.2.1.2 考虑上下文 50-53 3.2.2 词-话题分布信息到报道-话题信息的转化 53-56 3.2.2.1 基于一元语言模型 53 3.2.2.2 基于聚类策略 53-56 3.2.3 识别结果融合 56-59 3.2.4 基于DPMM的话题识别模型的算法流程 59 3.3 实验及结果分析 59-72 3.3.1 对比系统的实验 61-65 3.3.2 基于一元语言模型转化方式的实验 65-68 3.3.3 基于聚类策略转化方式的实验 68-71 3.3.4 实验小结 71-72 3.4 总结 72-74 第四章 基于DPMM的静态话题追踪 74-92 4.1 任务描述 74-75 4.2 基于DPMM的静态话题追踪 75-82 4.2.1 模型描述 76-77 4.2.2 改进Gibbs抽样过程 77-79 4.2.3 算法流程 79-80 4.2.4 追踪结果融合 80-82 4.3 实验及结果分析 82-90 4.3.1 投票策略的影响实验 83-87 4.3.2 与对比系统的比较 87-90 4.4 总结 90-92 第五章 基于DPMM的自适应话题追踪 92-108 5.1 任务描述 92-95 5.1.1 话题漂移问题 93-94 5.1.2 话题偏离问题 94-95 5.2 基于DPMM的自适应话题追踪 95-99 5.2.1 模型描述 95-96 5.2.2 算法流程 96-99 5.3 实验及结果分析 99-106 5.3.1 D_ATT的实验 99-104 5.3.2 自适应技术的实验 104-106 5.4 总结 106-108 第六章 话题识别与追踪系统 108-119 6.1 应用场景 108-109 6.2 系统方案设计框图 109-112 6.2.1 话题层 110-111 6.2.2 用户层 111-112 6.3 系统的算法流程 112-114 6.4 结果展示 114-118 6.5 总结 118-119 第七章 总结与展望 119-123 7.1 本文工作总结 119-121 7.2 下一步研究展望 121-123 参考文献 123-133 致谢 133-134 攻读博士学位期间发表论文 134
|
相似论文
- 贝叶斯方法下二值与多值序次数据模型与异常点的同时识别,O212.1
- 偏微分控制系统的精确能控性与适定性和正则性,O175.2
- 四阶微分方程Dirichlet边值问题解的存在性,O175.8
- 基于项目反应模型的试卷质量分析及学生能力评估,G449
- 视频监控中相互遮挡人体的跟踪,TP391.41
- 带Dirichlet过程先验的有序Logistic模型,O212.8
- 有序Probit模型的非参贝叶斯统计,O212.8
- 马尔科夫协整转换模型的研究,F224
- 无穷级Dirichlet级数与无穷级随机Dirichlet级数的超级,O156.4
- 无限级Dirichlet级数与随机Dirichlet级数,O156.4
- 微博客话题追踪及实时检索的相关研究,TP393.092
- 我国GDP与碳排放关系的结构突变贝叶斯分析,F124;F205
- 椭圆型方程边界资料扰动的影响,O175.25
- 一维非线性弦振动方程非齐次Dirichlet初边值问题经典解的破裂,O175.8
- 基于Winbugs软件在含结构零的2×2列联表中风险差和风险比的贝叶斯置信区间的计算及样品量的确定,TP319
- 相关观测粗差探测的Bayes方法及其在GPS网平差中的应用,P228.4
- 一类紧致黎曼流形的特征值问题研究,O186.12
- 一类对数Hardy-Bloch型空间及其算子,O174.5
- 无限级Dirichlet级数与随机Dirichlet级数,O156.4
- 调和分析方法及偏微分方程正则性问题研究,O175.2
- 非光滑区域上椭圆方程的正规性的研究,O175.25
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|