学位论文 > 优秀研究生学位论文题录展示
演进式动态新闻文档摘要生成方法研究
作 者: 严睿
导 师: 李晓明
学 校: 北京大学
专 业: 计算机系统结构
关键词: 演进式摘要 时序年表 平衡优化 互增强 新闻理解 新闻元抽取
分类号: TP391.1
类 型: 博士论文
年 份: 2013年
下 载: 73次
引 用: 0次
阅 读: 论文下载
内容摘要
在现今社会,随着近十年计算机科学迅猛发展的浪潮,多文档摘要技术已经逐渐成长为一个令人兴奋并充满着挑战的研究前沿,往往通过自然语言处理和信息检索的联合技术来加以解决。面对着当今互联网上的信息快速增长,找寻信息的人们往往会发现自己很难能跟上信息更新的频率和速度。新闻信息如洪水一般在互联网上汹涌袭来,人们很容易被“淹没”在浩如烟海的信息中,不知道从何开始。因此,人们认为对新闻信息的自动理解已经成为Web信息处理的一个重要成分。对于一个演进式的新闻主题而言,人们往往有着多重兴趣,如:该事件是如何起始的,如何发展的,当前状况又是如何,但是传统的新闻理解技术并不足以应对用户的这种需求。普通的搜索引擎仅仅只能按照它们的理解对新闻数据按照查询相关度来进行排序,但是它们很难应对各种意图模糊的新闻主题类查询。再比如说,即使搜索引擎返回给用户的结果排序十分理想(虽然这不太可能),用户也不太会愿意将这些文档一一阅读。人们希望能够有一种简单浏览的方式来掌握整个事态的发展流程和演化轨迹。而新闻摘要则正是一个很好的解决方式,可以提供一个经过了压缩,具有极大信息含量的文档重组织和展现形式,可以让用户能轻松掌握事件的发展。我们提出了“时序年表”(Timeline)的概念,把一个演进式的新闻按照时间的维度,动态的摘要生成为一系列相互独立又互相依赖的子摘要,从而提供了一个展示事件发展全景概况的灵活方式。本文具体工作和创新性如下:1.我们提出了一个面向新闻文档的全新文本分段算法。相比于传统的多文档摘要任务而言,演进式新闻文档摘要面向的是更为庞大的海量新闻数据集。因此,我们在开始摘要生成工作之前,首先会进行一些针对新闻特征的预处理。由于一篇新闻文档并非是完全不可再分的:一篇新闻文档通常包含了不止一个事件,而每个事件可能代表着某个新闻主题的某个侧面,因此我们从新闻文档中,抽取出具有原子事件特征的新闻元片段。在同一篇新闻文档中的所有新闻元事件在一定程度上也是彼此互相独立的。所以,对于它们而言,并不是所有新闻元都和某个特定的新闻主题紧密关联。经过一个细粒度的事件元提取过程,我们可以去除一些事件无关的描述性语句或者过滤掉和当前新闻主题无关的新闻元事件,通过这种方式对海量数据进行一步压缩和预处理。这项工作的挑战也很明显,我们需要应对来自文法(如文本,命名实体,时间等)、句法(句子位移,连接词等)以及视觉要素上的一些约束来进行新闻元片段提取。2.我们引入了一种全新的摘要任务“演进式动态新闻文档摘要”,并提出了两种解决的算法框架,这些算法框架都可以推广到所有依赖式摘要生成问题中。给定一个新闻主题文档集合,系统会自动输出一个时间年表,而该时间年表下的一系列子摘要代表着该事件随着时间推移的发展轨迹。两个方法之一是基于全局优先图排序算法和局部优先图排序算法的优化结合框架,考虑到句子之间跨时间的依赖关系以及同时间下的相互依赖关系。其中,跨时间依赖关系是通过一个时序投影函数,将所有其他时间结点下的句子都投影到某个特定的时间平面上来加以建模的。第二种方式是一个基于约束条件下的迭代式句子替换框架,从一个句子集合中优选出最佳句子的子集合生成摘要:子摘要之间不是完全独立的,而是通过邻居子摘要来互相优化互相精炼生成,反映出新闻演进式的特征。对于每一个子摘要,我们都从两种角度去考量评价:一种是局部的,基于周围邻居时间结点;一种是全局的,基于全数据时间结点。3.我们首次提出了视觉化演进式动态新闻文档摘要的概念,并提出了针对视觉化摘要和基于迭代式互相增强算法框架的解决方法。给定某个新闻主题以及相关带有时间标签的文档集,系统会生成一个带视觉信息的演进式动态新闻文档摘要,其中分别包含文字部分以及图片部分,两个部分互为说明互为补充。每个子摘要代表着事件的发展过程,被全局信息的优化条件所约束。在这里,图片信息可以被用作提示句子摘要信息的线索,从而改变传统文本摘要的生成方式,这一点将是非常有利的。对于视觉化演进式动态新闻文档摘要的生成,我们使用了两个异质数据流,其中图片数据流在以往文档摘要的生成方法中是往往被忽略了的。此外,由于我们要同时使用两种异质数据流,我们需要通过翻译模型来建立两个语义维度的桥梁跨越语义隔阂。对于每个子摘要而言都包含有两个部分:文本部分和图片部分。对图片的选择会影响到对文本的选择,反之亦然。我们提出了一个有效的方式来保证这两部分能够很好的通过互相增强的方式匹配起来,并且通过全局-局部的约束,将各个子摘要的生成进行统一优化。4.我们提出了两种可能整合到演进式动态新闻文档摘要中的扩展特性。第一种是引入用户个性化。因为用户有着个人的喜好,所以可能对自己喜欢阅读什么样的内容具有某种倾向性,很明显的是对于所有用户都生成一个一模一样的摘要是不够的。我们提出了一个交互式的摘要生成方法,允许用户可以使用“点击”和“查看”的方式来和摘要生成系统进行交互。人机交互的方式支持用户点击句子,并且查看该内容的来源文档,提供了实时的伪相关反馈。这种隐式的“点击日志”能反映出人们的兴趣。由于用户的点击可能比较稀疏,我们使用了“点击平滑”的方式来扩大点击数据的影响。第二种可扩展的方向是引入大众热点信息,我们使用了Twitter网社交媒体的数据来捕获这样的辅助信息。Twitter系统并不是只有一系列的帖子组成:在帖子的背后是一个潜在的用户关系网络图,包括用户之间的“粉丝”关系,和帖子之间的“转发”关系。对于大众热点信息,应该是热门的并且尽可能避免重复。我们通过一个对用户以及帖子两种异质结点进行共同排序的框架,整合信息热度和信息差异性,基于随机游走的排序框架甄选出大众热点信息。
|
全文目录
摘要 3-6 Abstract 6-15 第一章 引言 15-29 1.1 背景介绍 15-16 1.2 拟解决的问题 16-19 1.3 相关研究 19-27 1.3.1 单文档摘要 21 1.3.2 多文档摘要 21-23 1.3.3 摘要评测 23-27 1.3.3.1 准确率和召回率 24-25 1.3.3.2 内容相似度 25 1.3.3.3 语义单元重合度 25 1.3.3.4 ROUGE评测 25-26 1.3.3.5 Pyramid评测 26-27 1.4 本章小结 27-29 第二章 核心新闻信息要素抽取 29-47 2.1 研究问题 29-31 2.2 相关研究 31-32 2.2.1 叙述结构探析 31 2.2.2 文本分段技术 31-32 2.3 时序文本砖模型 32-34 2.3.1 时间戳提取 32-33 2.3.2 时序“文本砖” 33-34 2.4 新闻元增长模型 34-36 2.4.1 语义相关性 35-36 2.5 位移约束 36 2.6 实体约束 36-38 2.7 时间约束 38-39 2.8 连词约束 39-40 2.9 视觉约束 40 2.10 实验与评测 40-43 2.10.1 实验数据 40-41 2.10.2 评测指标 41-42 2.10.3 实验结果 42-43 2.11 参数调节 43-45 2.12 本章小结 45-47 第三章 演进式动态文本摘要方法研究 47-81 3.1 图排序演进式摘要算法 47-53 3.1.1 全局优先排序 48-50 3.1.2 全局关系建模 50-51 3.1.3 多样化建模 51-53 3.1.4 局部关系建模 53 3.2 局部-整体结合 53-55 3.3 基于迭代式的替换生成算法 55-64 3.3.1 优化框架 58-64 3.3.1.1 选取过程 58-60 3.3.1.2 平衡优化 60-64 3.4 实验与评测 64-77 3.4.1 实验数据集 64-65 3.4.2 实验设置 65-66 3.4.3 基准算法 66-67 3.4.4 评测指标 67-69 3.4.5 总体效果评测 69-71 3.4.6 策略选取 71-75 3.4.6.1 基于图排序算法的参数调节 71-72 3.4.6.2 基于迭代式文本替换算法的参数调节 72-75 3.4.7 案例分析 75-77 3.5 本章小结 77-79 附图 79-81 第四章 多媒体演进式动态新闻摘要生成 81-107 4.1 “为文字加点色彩” 81-84 4.2 视觉化演进式新闻文档摘要生成 84-94 4.2.1 问题定义 84 4.2.2 迭代式增强框架 84-88 4.2.3 图文翻译 88-91 4.2.3.1 图片表示 88-90 4.2.3.2 翻译模型 90-91 4.2.4 邻接矩阵 91-94 4.2.4.1 同质结点内部关联关系 93 4.2.4.2 异质结点的外部关联关系 93-94 4.2.4.3 同质结点的相邻关联关系 94 4.3 实验与评测 94-98 4.3.1 实验数据集 94 4.3.2 实验设置 94-95 4.3.3 基准算法 95-96 4.3.4 评测指标 96-98 4.3.4.1 基于标准答案的客观评测 96-97 4.3.4.2 图文匹配度 97-98 4.4 结果比较 98-100 4.5 参数和部件 100-103 4.5.1 部件检验 100-101 4.5.2 参数设置 101-103 4.6 用户研究 103-105 4.6.1 样例输出 104-105 4.7 本章小结 105-106 附图 106-107 第五章 可能的研究扩展 107-119 5.1 个性化 107-111 5.1.1 用户交互 108-110 5.1.2 摘要个性化 110-111 5.2 大众热点 111-117 5.2.1 排序算法 113-115 5.2.2 用户-帖子共同排序 115-116 5.2.3 邻接矩阵构建 116-117 5.3 本章小结 117-119 第六章 总结与展望 119-123 6.1 本文工作及创新性 119-121 6.2 未来工作展望 121-123 参考文献 123-139 博士期间发表(待发表)论文与项目实践 139-143 致谢 143-145
|
相似论文
- Mg-Cu-Mn合金阻尼及力学性能的平衡优化研究,TG146.22
- 桉叶油相平衡数据的测定及提纯工艺的研究,TQ654
- 河南省航运开发与水资源优化配置研究,TV213.4
- 宝鸡峡灌区水务信息管理系统研究,TV213.4
- 玉米化工用多效蒸发器的优化分析,TQ051.62
- Mg-Zr系镁合金强度与阻尼性能的平衡优化研究,TG146.22
- 基于复合生态系统平衡概念的农村居住环境规划设计优化研究,TU982.29
- 辽宁省沿海港口群集装箱内陆集疏运系统整合研究,U691
- 座椅装配生产线平衡优化及排产仿真研究,TH186
- 农田氮素动态平衡与优化管理研究,S511
- 基于生产线平衡优化的价值流图析应用研究,F273
- 抽油机超高转差率电动机的应用研究,TE933.1
- 高速工业平缝机运动性能改进及动态特性优化,TS941.562.2
- 无油润滑工业平缝机机构的设计与分析,TS941.562.2
- 典型干旱区水资源优化配置研究,TV213.4
- 濮城油田油气集输处理系统优化改造,TE866
- 牧民定居后季节草场优化配置的研究,S812.9
- 水泥厂磨机系统工艺参数优化和平衡问题的研究,TQ172.632
- 服装缝制流水线的作业编排与优化研究,TS941.0
- 天津市城市水源合理配置研究,TV213.4
- 基于虚拟样机仿真的机构动平衡研究,TH112
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|