学位论文 > 优秀研究生学位论文题录展示

面向web文本挖掘的中文文本自动摘要关键技术研究

作　者: 徐绮楠
导　师: 刘志镜
学　校: 西安电子科技大学
专　业: 计算机应用技术
关键词: 自动文摘 Web文本挖掘关键词提取统计方法向量空间结构分析
分类号: TP391.1
类　型: 硕士论文
年　份: 2009年
下　载: 86次
引　用: 0次
阅　读: 论文下载

内容摘要

随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源。而随着Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。目前,在现有数据集合中文本和超文本的数据量远远超过了结构化数据,最近研究表明,一个组织的信息有80%是以文本的形式存放的。随着信息资源的不断增长,人们迫切需要从海量的文本信息中有效地收集和选择感兴趣和有用的信息。在这样的需求驱动下,文本数据挖掘成为数据挖掘领域中的一个热点及难点。本论文的研究内容是面向Web文本挖掘的中文文本自动摘要关键技术的研究与系统设计。通过自主开发的中文文本信息提取系统,重点讨论了当前流行的Web文本挖掘以及中文文本自动摘要的核心技术,简述如下。中文分词技术：考虑到中文数据的特点,采用了基于“词元”的分词算法实现文本分词。中文文本的关键词提取技术：利用分词的结果采用基于统计学的方法实现关键词的提取。中文文本自动文摘技术：本文针对中文文本信息,在实现自动文摘现有方法的基础上,提出了一种基于统计方法分析文本,通过结构分析分主题提取摘要,利用启发式规则对摘要进行可读性加工的自动文摘方法。本文的主要工作和主要创新点在于：①提出了一种切实可行的自动文摘方法；②提出了选取构建文本向量空间项的新方法,利用若干最高权重关键词而不是全部单词,解决了信息分散的问题；③设计了新的主题划分方法,主题数随文本结构的不同进行动态调整,较科学的进行了主题划分；④提出了关键词的全局权重、局部权重和主题权重的概念,针对各类权重提出了适合的权值计算方法,解决了依赖大语料库的困难。针对以上研究成果,本文描述了原型系统的设计实现细节。

全文目录

摘要  3-4
Abstract  4-8
第一章绪论  8-14
  1.1 课题背景  8-10
  1.2 国内外研究现状  10-13
    1.2.1 国外研究现状  10-11
    1.2.2 国内研究现状  11-13
  1.3 课题的研究内容与组织结构  13-14
第二章基于Web的文本挖掘  14-34
  2.1 数据挖掘  14-17
    2.1.1 介绍  14
    2.1.2 优点  14-15
    2.1.3 类别  15-16
    2.1.4 基本步骤  16-17
  2.2 Web数据挖掘  17-23
    2.2.1 介绍  17-18
    2.2.2 优点  18-19
    2.2.3 类别  19-21
    2.2.4 基本步骤  21-22
    2.2.5 几种Web数据挖掘方式的对比  22-23
  2.3 Web文本挖掘  23-32
    2.3.1 文本挖掘的一般过程及模型结构  24-26
    2.3.2 文本表示  26-27
    2.3.3 文本的特征子集的选取  27
    2.3.4 文本分类  27-28
    2.3.5 文本聚类  28-30
    2.3.6 文本关联分析  30
    2.3.7 文本信息抽取  30-32
  2.4 小结  32-34
第三章相关理论与关键技术研究  34-50
  3.1 中文分词技术  34-37
    3.1.1 汉语词切分规则  34
    3.1.2 汉语词切分方法  34-36
    3.1.3 意义词和非意义词  36-37
  3.2 关键词提取方法(TFIDF)  37-38
  3.3 文摘的定义和内容  38-40
    3.3.1 文摘的定义  38-39
    3.3.2 文摘的分类  39-40
    3.3.3 文摘的选取  40
  3.4 自动文摘方法  40-45
    3.4.1 基于统计的自动文摘  41-42
    3.4.2 基于理解的自动文摘  42-44
    3.4.3 基于模板的自动文摘  44-45
    3.4.4 基于结构的自动文摘  45
  3.5 自动文摘系统的基本组成  45-47
    3.5.1 自动文摘系统的功能组成  45-46
    3.5.2 自动文摘系统的分析组成  46-47
  3.6 小结  47-50
第四章基于统计和结构分析的自动文摘方法  50-62
  4.1 引言  50-51
  4.2 基于结构的主题划分  51-53
    4.2.1 主题划分的方法  51
    4.2.2 文本向量空间模型的构建(VSM)  51-52
    4.2.3 基于连续段落相似度的主题划分  52-53
  4.3 关键词的提取  53-57
    4.3.1 文本分词处理  53-54
    4.3.2 关键词的全局权重  54-55
    4.3.3 关键词的局部权重  55-56
    4.3.4 关键词的主题权重  56-57
  4.4 摘要句的提取  57-60
    4.4.1 句子划分  57
    4.4.2 句子权重计算  57-58
    4.4.3 主题摘要数分配  58-60
    4.4.4 主题摘要句提取  60
  4.5 摘要生成  60-61
    4.5.1 摘要初稿生成  60-61
    4.5.2 摘要可读性加工  61
    4.5.3 摘要输出  61
  4.6 小结  61-62
第五章系统的设计与实现  62-74
  5.1 文本预处理子系统  63-65
    5.1.1 自动分词模块  63
    5.1.2 关键词提取模块  63-65
  5.2 中文文本自动摘要子系统  65-69
    5.2.1 自动摘要子系统的流程框架  65-66
    5.2.2 自动摘要子系统的对象结构  66-69
  5.3 系统的运行实现  69-72
  5.4 系统评测及结果  72-73
    5.4.1 评测语料及方法  72
    5.4.2 评测结果及分析  72-73
  5.5 小结  73-74
第六章总结与展望  74-76
  6.1 研究工作的总结  74
  6.2 趋势与展望  74-76
致谢  76-78
参考文献  78-80
在读期间发表的学术论文  80

面向web文本挖掘的中文文本自动摘要关键技术研究

内容摘要

全文目录

相似论文