学位论文 > 优秀研究生学位论文题录展示
专利文本聚类及关键短语抽取的研究
作 者: 徐晓明
导 师: 朱靖波
学 校: 东北大学
专 业: 计算机系统结构
关键词: 专利 文本聚类 多方法整合 短语识别 关键短语评分 关键短语抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 60次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,专利信息资源呈几何爆炸式的增长,如何充分地利用它们,使专利信息在科研和专利业务等方面发挥作用,成为文本处理领域的热门课题之一。专利信息资源中存在着大量的专业文字信息,如何提供一种有效的机制来组织利用文本、帮助用户获得他们想要的信息变得愈加重要。文本聚类是组织利用文本信息资源的较好的解决方案之一。它的任务是根据文本数据的特征,将其划分为不同的文本簇。专利文本聚类,即针对专利文本进行聚类,可以将专利文本集合划分成系统化的有意义的文本簇,缩小文本集合的数据规模,进而提高用户的查询使用效率。在对专利文本聚类结果的描述上,关键短语抽取方法表现出较好的效果。关键短语比关键词带有更丰富的信息量,可以高度概括文本簇的主题,帮助用户快速了解文本簇的主要内容,加快专利处理的效率。同时,由于关键短语十分精练,还可以利用关键短语以很小的计算代价对专利进行文本表示,辅助进行信息检索、文本聚类和分类等专利处理。针对专利文本的特点,我们提出了改进的专利文本聚类方法和具体实现步骤。其中包括文本预处理、文本表示、基于Trie树的文本表示优化、特征权重计算、特征降维等预处理步骤以及基于辅助字段的文本相似度计算、改进的文本聚类算法、最优类别个数选取等聚类步骤。此外,我们还提出了针对专利文本的多方法整合的关键短语抽取方法和具体实现步骤。其中包括基于词性模板的关键短语候选抽取、基于词典的短语识别、基于上下文信息的短语识别、基于TF-ICF-CDF的关键短语评分等步骤。综上,我们提出了改进的专利文本聚类方法和针对专利文本的多方法整合的关键短语抽取方法。与传统方法相比,我们取得了更好的性能。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 绪论 11-17 1.1 研究背景和意义 11-12 1.2 研究现状 12-13 1.3 本文的主要研究内容和贡献 13-14 1.4 论文组织 14-17 第2章 基础知识 17-21 2.1 文本聚类概述 17-18 2.2 传统的文本聚类算法 18-19 2.2.1 基于层次的聚类算法 18 2.2.2 基于划分的聚类算法 18-19 2.2.3 基于密度的聚类算法 19 2.3 专利文本数据介绍及特点分析 19-20 2.4 本章小结 20-21 第3章 专利文本预处理及表示 21-39 3.1 文本预处理 21-27 3.1.1 分词(Tokenization) 21 3.1.2 词形还原 21-22 3.1.3 停用词过滤 22-24 3.1.4 特定字段的拼写检查及纠正 24-27 3.2 文本表示 27-30 3.2.1 Bag-of-words 28-29 3.2.2 N-gram 29 3.2.3 Word Cluster 29 3.2.4 Phrase 29-30 3.3 基于Trie树的文本表示优化 30-32 3.3.1 Trie树的设计与实现 30-32 3.3.2 Trie树与哈希表性能的实验对比 32 3.4 特征权重计算 32-35 3.4.1 Bool权重 32-33 3.4.2 TF权重 33 3.4.3 TF~*IDF权重 33-34 3.4.4 TFC权重 34 3.4.5 ITC权重 34 3.4.6 TF~*IWF 34-35 3.4.7 熵权重 35 3.5 特征降维 35-37 3.5.1 文档频数 35-36 3.5.2 信息增益 36 3.5.3 χ~2统计 36-37 3.5.4 互信息 37 3.6 本章小结 37-39 第4章 专利文本聚类算法 39-51 4.1 传统的文本相似度计算 39-40 4.1.1 Minkowski(明氏)距离 39 4.1.2 Consine(余弦)距离 39-40 4.1.3 Mahalanois(马氏)距离 40 4.1.4 Lance(兰氏)距离 40 4.2 基于辅助字段的文本相似度计算 40-42 4.2.1 Inventor统计 41 4.2.2 Assignee统计 41 4.2.3 Agent统计 41-42 4.2.4 基于辅助字段的的相似度计算公式 42 4.3 改进的文本聚类算法 42-45 4.3.1 随机 43 4.3.2 K-means++ 43-44 4.3.3 多次随机取最优 44 4.3.4 随机分组 44 4.3.5 多次随机分组取最优 44-45 4.4 最优类别个数选取 45 4.5 实验 45-50 4.5.1 实验数据 45 4.5.2 评价方法 45-48 4.5.3 实验结果及分析 48-50 4.6 本章小结 50-51 第5章 专利文本关键短语抽取 51-63 5.1 关键短语抽取的难点及关键短语表示的优势 51-52 5.1.1 关键短语抽取的难点 51 5.1.2 关键短语表示的优势 51-52 5.2 基于词性模板的关键短语候选抽取 52-56 5.2.1 名词+动词模板 54-55 5.2.2 自动抽取的词性模板 55-56 5.3 基于词典的短语识别 56-57 5.4 基于上下文信息的短语识别 57-58 5.5 基于TF-ICF-CDF的关键短语评分 58 5.6 实验 58-60 5.6.1 实验数据 58 5.6.2 评价方法 58-59 5.6.3 实验结果及分析 59-60 5.7 本章小结 60-63 第6章 工作总结与展望 63-65 6.1 工作总结 63 6.2 工作展望 63-65 参考文献 65-69 致谢 69-71 攻读硕士期间发表的论文 71-73 攻读硕士期间参加的项目 73
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 从三起专利侵权案件看等同原则的适用,D923.42
- 基于领域本体的专利地图研究,TP391.1
- 目前美国专利法的若干议题研究,DD913
- “防火隔热卷帘”发明专利侵权案的分析,D923.42
- 高新技术企业专利管理人才培训研究,G306
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 基于文本聚类和语料库的信誉维度发现研究,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 面向海量数据的云存储系统实现与应用研究,TP333
- 跨国公司专利战略的发展与我国的应对策略,G306
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- 我国药品专利强制许可问题研究,D923.42
- 国际空间站的专利保护,D997.1
- 商业方法发明可专利性审查分析,D923.42
- 汽车外观设计专利权的侵权标准判定研究,D923.42
- 我国专利民事纠纷的行政裁决制度研究,D922.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|