学位论文 > 优秀研究生学位论文题录展示
面向事件的多文档自动文摘研究
作 者: 孙萍
导 师: 程显毅
学 校: 江苏大学
专 业: 模式识别与智能系统
关键词: 多文档 自动文摘 事件 HNC 自然语言处理
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 48次
引 用: 0次
阅 读: 论文下载
内容摘要
一个主题下可以有多个事件,主题是抽象的,事件是具体的,同主题下的事件具有相似性。本文主要对相同主题下的不同新闻报道进行事件识别,对同一事件的文本进行聚类,研究面向事件的多文档文摘的自动生成,以解决多文档文摘质量不高,文摘句覆盖率低、文摘可读性差的问题。本文的研究工作概括如下:(1)针对面向主题的多文档文摘可能会造成具有相似性的不同事件识别难的问题,本文重点研究突发事件主题下的多个事件,将ICTCLAS系统嵌入到GATE(语言工程的软件架构)中,利用GATE工具,实现事件触发词的识别。(2)针对目前句子相似度计算方法存在的问题及HNC理论具有语义角度理解词语和分析句子结构等特点,本文提出了基于HNC的词语相似度计算和句子相似度计算,在一定程度上提高了相似度的计算精度,为事件聚类和侧面信息聚类打下了基础。(3)在HNC计算触发词语的相似度基础上,提出了事件聚类算法,解决了相似性的不同事件识别难的问题,完成事件识别。针对同一事件的不同文档,提出了在基于HNC句子相似度计算的基础上对相似句子进行聚类,实现了侧面信息的识别,抽取出反映侧面信息的候选文摘句,对相同侧面信息的候选文摘句进行基于词对的子主题重要度计算和句子重要度计算,抽取文摘句,提高了多文档文摘的质量,在一定程度上满足读者的要求。(4)设计并实现了面向事件的多文档文摘原型系统。从信息覆盖度、可读性和正确性三个方面,结合人工打分进行评测,将实验结果与基于tf*idf文摘系统进行对比,结果表明本文方法部分解决了文摘句覆盖率低、可读性差的问题。
|
全文目录
摘要 5-6 ABSTRACT 6-9 1 绪论 9-16 1.1 研究背景和意义 9-10 1.2 国内外研究现状 10-13 1.2.1 国外研究现状 10-12 1.2.2 国内研究现状 12-13 1.3 本文的研究工作 13-14 1.4 本文的组织结构 14-16 2 研究背景 16-34 2.1 相关概念 17-18 2.2 句子相似度计算 18-24 2.2.1 向量空间模型 18-20 2.2.2 语义计算模型 20-22 2.2.3 概率模型 22-23 2.2.4 概念模型 23-24 2.3 文摘句的选择 24-25 2.4 文摘的可读性加工 25-27 2.5 多文档自动文摘的评价 27-29 2.6 HNC理论 29-32 2.6.1 HNC理论基本思想 29-31 2.6.2 HNC理论在语义分析中的作用 31-32 2.7 本章小结 32-34 3 事件识别与聚类 34-50 3.1 GATE介绍 35-37 3.2 基于GATE的事件触发词识别 37-43 3.2.1 时间触发词的识别 38-40 3.2.2 地点触发词的识别 40-42 3.2.3 类别触发词的识别 42-43 3.3 基于HNC的句子相似度计算 43-47 3.3.1 相似性与相关性 43 3.3.2 词语相似度计算 43-45 3.3.3 基于HNC的句子相似度计算 45-47 3.4 事件聚类 47-49 3.4.1 事件聚类 47-48 3.4.2 侧面信息聚类 48-49 3.5 本章小节 49-50 4 面向事件的多文档文摘原型系统设计 50-60 4.1 文本预处理 50-51 4.2 聚类 51-54 4.2.1 事件识别与事件聚类 51 4.2.2 句子相似度计算 51-53 4.2.3 侧面信息聚类 53-54 4.3 基于词对的文摘句选择 54-58 4.3.1 词对 55 4.3.2 词对生成算法 55-56 4.3.3 词对的权重计算 56 4.3.4 基于词对的文摘句选择 56-58 4.4 文摘句排序和指代消解 58-59 4.4.1 文摘句的排序 58 4.4.2 指代消解 58-59 4.5 本章小节 59-60 5 面向事件的多文档文摘原型系统的实现与评价 60-67 5.1 系统实现 60-62 5.1.1 系统输入 60-61 5.1.2 系统输出 61-62 5.2 多文档文摘的评测 62-65 5.2.1 自动评测 62-63 5.2.2 人工评测 63-65 5.3 实验结果与分析 65-66 5.4 本章小结 66-67 6 总结与展望 67-69 6.1 工作总结 67-68 6.2 下一步工作 68-69 参考文献 69-71 致谢 71-72 论文及科研情况 72
|
相似论文
- 病险水库溃坝概率分析方法研究,TV697
- 多邮件自动文摘的关键技术研究,TP391.1
- 词义消歧语料库自动获取方法研究,TP391.1
- 传感器网络中渐变事件监测研究,TP212.9
- 基于汉语听觉认知的事件相关电位的研究,R318.0
- 农村群体性事件与基层政府治理对策研究,D631.4
- 完善广东省海洋渔业总体应急预案研究,D630
- 城镇化进程中失地农民群体性突发事件研究,D630
- 《瞭望》与《南风窗》群体性事件报道策略比较研究,G212.2
- 网络游戏成瘾青少年感觉寻求水平和事件相关电位CNV实验研究,R749.99
- 公共事件报道中主流媒体立场与网络民意的错位研究,G206
- 关于同时监控事件发生间隔与频次的控制图的研究,X924
- 惊恐障碍患者视觉多特征物理刺激失匹配负波研究,R749.7
- 老年人心理弹性的实证研究,B844.4
- 政府和谐处置群体性事件的博弈分析,D630
- 大连市G区群体性事件应急处置研究,D631.4
- 惊恐障碍患者听觉信息前注意自动加工的事件相关电位研究,R749.7
- 初中生子女诱发的母亲的愤怒情绪及相关问题研究,B842.6
- 饮料企业的危机管理研究,F426.82
- 群体性事件的法律规制,D631.4
- 群体性事件的法律防控与解决机制,D631.4
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|