学位论文 > 优秀研究生学位论文题录展示

专利文本聚类及关键短语抽取的研究

作　者: 徐晓明
导　师: 朱靖波
学　校: 东北大学
专　业: 计算机系统结构
关键词: 专利文本聚类多方法整合短语识别关键短语评分关键短语抽取
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 60次
引　用: 0次
阅　读: 论文下载

内容摘要

近年来,专利信息资源呈几何爆炸式的增长,如何充分地利用它们,使专利信息在科研和专利业务等方面发挥作用,成为文本处理领域的热门课题之一。专利信息资源中存在着大量的专业文字信息,如何提供一种有效的机制来组织利用文本、帮助用户获得他们想要的信息变得愈加重要。文本聚类是组织利用文本信息资源的较好的解决方案之一。它的任务是根据文本数据的特征,将其划分为不同的文本簇。专利文本聚类,即针对专利文本进行聚类,可以将专利文本集合划分成系统化的有意义的文本簇,缩小文本集合的数据规模,进而提高用户的查询使用效率。在对专利文本聚类结果的描述上,关键短语抽取方法表现出较好的效果。关键短语比关键词带有更丰富的信息量,可以高度概括文本簇的主题,帮助用户快速了解文本簇的主要内容,加快专利处理的效率。同时,由于关键短语十分精练,还可以利用关键短语以很小的计算代价对专利进行文本表示,辅助进行信息检索、文本聚类和分类等专利处理。针对专利文本的特点,我们提出了改进的专利文本聚类方法和具体实现步骤。其中包括文本预处理、文本表示、基于Trie树的文本表示优化、特征权重计算、特征降维等预处理步骤以及基于辅助字段的文本相似度计算、改进的文本聚类算法、最优类别个数选取等聚类步骤。此外,我们还提出了针对专利文本的多方法整合的关键短语抽取方法和具体实现步骤。其中包括基于词性模板的关键短语候选抽取、基于词典的短语识别、基于上下文信息的短语识别、基于TF-ICF-CDF的关键短语评分等步骤。综上,我们提出了改进的专利文本聚类方法和针对专利文本的多方法整合的关键短语抽取方法。与传统方法相比,我们取得了更好的性能。

全文目录

摘要  5-6
Abstract  6-11
第1章绪论  11-17
  1.1 研究背景和意义  11-12
  1.2 研究现状  12-13
  1.3 本文的主要研究内容和贡献  13-14
  1.4 论文组织  14-17
第2章基础知识  17-21
  2.1 文本聚类概述  17-18
  2.2 传统的文本聚类算法  18-19
    2.2.1 基于层次的聚类算法  18
    2.2.2 基于划分的聚类算法  18-19
    2.2.3 基于密度的聚类算法  19
  2.3 专利文本数据介绍及特点分析  19-20
  2.4 本章小结  20-21
第3章专利文本预处理及表示  21-39
  3.1 文本预处理  21-27
    3.1.1 分词(Tokenization)  21
    3.1.2 词形还原  21-22
    3.1.3 停用词过滤  22-24
    3.1.4 特定字段的拼写检查及纠正  24-27
  3.2 文本表示  27-30
    3.2.1 Bag-of-words  28-29
    3.2.2 N-gram  29
    3.2.3 Word Cluster  29
    3.2.4 Phrase  29-30
  3.3 基于Trie树的文本表示优化  30-32
    3.3.1 Trie树的设计与实现  30-32
    3.3.2 Trie树与哈希表性能的实验对比  32
  3.4 特征权重计算  32-35
    3.4.1 Bool权重  32-33
    3.4.2 TF权重  33
    3.4.3 TF~*IDF权重  33-34
    3.4.4 TFC权重  34
    3.4.5 ITC权重  34
    3.4.6 TF~*IWF  34-35
    3.4.7 熵权重  35
  3.5 特征降维  35-37
    3.5.1 文档频数  35-36
    3.5.2 信息增益  36
    3.5.3 χ~2统计  36-37
    3.5.4 互信息  37
  3.6 本章小结  37-39
第4章专利文本聚类算法  39-51
  4.1 传统的文本相似度计算  39-40
    4.1.1 Minkowski(明氏)距离  39
    4.1.2 Consine(余弦)距离  39-40
    4.1.3 Mahalanois(马氏)距离  40
    4.1.4 Lance(兰氏)距离  40
  4.2 基于辅助字段的文本相似度计算  40-42
    4.2.1 Inventor统计  41
    4.2.2 Assignee统计  41
    4.2.3 Agent统计  41-42
    4.2.4 基于辅助字段的的相似度计算公式  42
  4.3 改进的文本聚类算法  42-45
    4.3.1 随机  43
    4.3.2 K-means++  43-44
    4.3.3 多次随机取最优  44
    4.3.4 随机分组  44
    4.3.5 多次随机分组取最优  44-45
  4.4 最优类别个数选取  45
  4.5 实验  45-50
    4.5.1 实验数据  45
    4.5.2 评价方法  45-48
    4.5.3 实验结果及分析  48-50
  4.6 本章小结  50-51
第5章专利文本关键短语抽取  51-63
  5.1 关键短语抽取的难点及关键短语表示的优势  51-52
    5.1.1 关键短语抽取的难点  51
    5.1.2 关键短语表示的优势  51-52
  5.2 基于词性模板的关键短语候选抽取  52-56
    5.2.1 名词+动词模板  54-55
    5.2.2 自动抽取的词性模板  55-56
  5.3 基于词典的短语识别  56-57
  5.4 基于上下文信息的短语识别  57-58
  5.5 基于TF-ICF-CDF的关键短语评分  58
  5.6 实验  58-60
    5.6.1 实验数据  58
    5.6.2 评价方法  58-59
    5.6.3 实验结果及分析  59-60
  5.7 本章小结  60-63
第6章工作总结与展望  63-65
  6.1 工作总结  63
  6.2 工作展望  63-65
参考文献  65-69
致谢  69-71
攻读硕士期间发表的论文  71-73
攻读硕士期间参加的项目  73

专利文本聚类及关键短语抽取的研究

内容摘要

全文目录

相似论文