学位论文 > 优秀研究生学位论文题录展示

科技论文关键词抽取技术的研究

作 者: 严春风
导 师: 姚建民
学 校: 苏州大学
专 业: 计算机技术
关键词: 关键词抽取 PAT-Tree 互信息 同义词
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 94次
引 用: 1次
阅 读: 论文下载
 

内容摘要


本文以万方数据和会议集作为测试语料,重点介绍了基于PAT-Tree关键词的抽取方法和知网在关键词抽取中的应用。首先通过实验验证关键词具有的一些特征并介绍了常用的关键词的过滤方法。接着介绍了能够方便快捷地进行全文串频统计的PAT-Tree数据结构以及互信息。在此基础上提出了基于PAT-Tree关键词的抽取方法,抽取过程基于从原始文本中得到的统计信息,取出符合筛选条件的字符串。总体来说分为四个阶段,分别为:对文本进行预处理;在预处理过的文本上建立PAT-Tree,获取文章词频信息;在PAT-Tree上抽取候选关键词;对关键词过滤以及选取关键词。我们把抽取的重点放在了自动过滤符合统计条件的字符串,进一步精选候选关键词上面。我们在精选过程中采用了新的过滤手段,并借鉴了其它方法的优点,形成了一套综合的过滤手段,有效地提高了精确度,减少了计算量。本文的另外一个特色,考虑到会议集是领域语料,特别使用分治法的思想来处理密集计算,高效地建立PAT-Tree,一方面为抽取领域关键词提供了方便,另一方面也使得关键词抽取能够用分布式计算的方法来实现,提供了进一步扩大处理能力的空间。实验结果表明,采用此方法能够高效地抽取关键词,特别是领域关键词的抽取取得了良好的效果,达到了预期目的。最后,引入知网来计算同义词的相似度,以此来解决关键词集合中同义词同现问题和词语由于同义词问题不能进入关键词集合的问题。

全文目录


摘要  3-4
Abstract  4-7
第一章 序言  7-17
  1.1 课题研究的背景和意义  7-9
    1.1.1 网页浏览  7-8
    1.1.2 信息检索  8-9
    1.1.3 专利信息挖掘  9
  1.2 国内外研究现状  9-11
  1.3 关键词抽取的方法  11-16
    1.3.1 基于词典的关键词抽取方法  11-12
    1.3.2 基于规则的关键词抽取方法  12-13
    1.3.3 基于统计的关键词抽取方法  13-15
    1.3.4 基于文本特征的关键词抽取方法  15-16
  1.4 本文组织  16-17
第二章 关键词抽取的参考要素  17-25
  2.1 关键短语的界定  17-18
  2.2 特征分析  18-22
  2.3 过滤方法  22-24
  2.4 本章总结  24-25
第三章 PAT-Tree互信息  25-44
  3.1 PAT-Tree 介绍  25-29
    3.1.1 PAT-Tree 节点要素  27-28
    3.1.2 PAT-Tree 应用举例  28-29
  3.2 Sistring 详解  29-31
    3.2.1 Sistring 概念  29-30
    3.2.2 Sistring 功能  30-31
  3.3 如何构建 PAT-Tree  31-40
    3.3.1 数据二进制编码  32-33
    3.3.2 构建PAT-Tree  33-40
  3.4 字符串搜索  40
  3.5 互信息  40-42
    3.5.1 互信息定义  40-42
    3.5.2 互信息演化  42
  3.6 本章总结  42-44
第四章 基于 PAT-Tree 关键词抽取  44-59
  4.1 文本预处理  44-46
  4.2 构建 PAT-Tree  46-49
  4.3 抽取关键词  49-50
  4.4 关键词过滤  50-54
  4.5 领域关键词抽取  54-55
  4.6 实验结果分析  55-57
  4.7 本章总结  57-59
第五章 知网在关键词抽取中的应用  59-65
  5.1 知网简介  59-60
  5.2 利用知网进行相似度计算  60
  5.3 知网在本文中的应用  60-64
    5.3.1 解决关键词集合中同义词同现问题  60-61
    5.3.2 解决词语由于同义词问题不能进入关键词集合的问题  61-64
  5.4 实验结果分析  64
  5.5 本章总结  64-65
第六章 结束语  65-67
  6.1 论文总结  65-66
  6.2 研究展望  66-67
参考文献  67-71
攻读学位期间公开发表的论文  71-72
致谢  72

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 俄语同义词的性质、功能与分布研究,H35
  3. 改进的语句相似度算法在问答系统中的应用研究,TP391.1
  4. 基于条件随机场的中文命名实体识别,TP391.43
  5. 《北梦琐言》同义词研究,H131
  6. 基于新策略改进优化算法的医学图像配准研究,TP391.41
  7. 面向主题的博客资源挖掘关键技术研究,TP393.09
  8. 大规模汉语语义词典构建,TP391.1
  9. 基于本体的社保审计知识库的构建研究,TP391.1
  10. 中文事件模式自动生成方法的研究和实现,TP393.09
  11. 无监督的中文语义词提取技术研究,H08
  12. 《生经》同义词研究,H13
  13. 问答式社区的标签推荐技术研究,TP391.1
  14. 医学切片图像的配准,TP391.41
  15. 基于Web的英汉双向未登录词翻译方法研究,TP391.2
  16. 《诗经》中形容词同义词的类别和多组同义词的意义关系,I207.22
  17. 大规模中英可比较语料库构建,TP391.1
  18. 面向基因表达数据的特征选择算法研究,TP311.13
  19. 对外汉语教学中两组同义连词的辨析,H195
  20. 非刚性医学图像准算法研究和实现,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com