学位论文 > 优秀研究生学位论文题录展示
Lucene全文检索技术在专利服务平台中的研究与应用
作 者: 陈祥荣
导 师: 孙涌
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 专利检索 Lucene 全文检索 中文分词 排序
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 196次
引 用: 5次
阅 读: 论文下载
内容摘要
本文从生物医药专利信息服务平台的实际应用需求出发,在深入研究了Lucene全文检索工具包及相关技术基础之上,扩展了Lucene分词模块,改进了Lucene默认的排序算法,并扩展了Lucene的多格式文档处理模块,使本文设计的专利系统支持常用的多种专利文档格式的检索,并最终将以上研究应用于本文介绍的专利服务平台中,有效地改善了专利检索系统的性能。本文主要工作如下:(1)对Lucene全文检索工具包进行了深入研究,分析了各种常见格式文档处理技术的现状,着重研究了中文分词技术和Lucene的排序机制,为Lucene全文检索技术更好的在专利服务平台中的科学应用,提供了充分的理论依据;(2)针对专利文献特点及专利文献自动分词的难点,提出了一种基于规则和后缀数组相结合的自动分词方法,扩展了Lucene分词模块,实验证明该方法有效地提高了专利分词的查准率和查全率;(3)针对专利文献的特点,改进了传统的TF-IDF公式,提出了一种对位置信息进行加权来计算特征词权重的方法,对检索结果进行了自定义排序,实验证明该排序方法能很好地匹配更相关的文档;(4)为了能够让本文的专利检索系统既不局限于纯文本格式的检索,又不用将文档转换成中间格式,本文设计了一个通用的接口,借助第三方开发的解析工具对不同格式的专利文档(如PDF文档、WORD文档、HTML文档等)进行处理,将其转换成Lucene能够处理的格式,使本文设计的专利检索系统支持对多种格式专利文献的检索;(5)最后将Lucene全文检索技术应用于专利服务系统中,实验及实际使用证明本文实现的专利检索系统,在检索结果排序、查全率、查准率、响应时间等方面得到了有效地提高,极大的改善了专利检索系统的性能。
|
全文目录
中文摘要 4-5 Abstract 5-9 第一章 绪论 9-13 1.1 选题背景与意义 9-10 1.2 国内外研究应用现状 10-11 1.3 本文主要研究内容 11 1.4 本文的组织结构 11-13 第二章 LUCENE 全文检索工具包及相关技术研究 13-30 2.1 LUCENE 全文检索工具包 13-21 2.1.1 LUCENE 简介 13 2.1.2 LUCENE 结构功能分析 13-15 2.1.3 LUCENE 数据流分析 15-17 2.1.4 LUCENE 索引结构 17-19 2.1.5 LUCENE 的应用特点及优势 19-21 2.2 各种常见格式文档处理技术 21 2.3 中文分词技术 21-27 2.3.1 中文分词的必要性 21-22 2.3.2 现有分词方法研究 22-24 2.3.3 中文自动分词的难点 24-26 2.3.4 面向专利的自动分词目标 26-27 2.4 检索结果排序 27-29 2.4.1 LUCENE 检索机制 27-28 2.4.2 LUCENE 的排序算法介绍 28-29 2.5 本章小结 29-30 第三章 面向专利的中文自动分词技术的研究 30-40 3.1 专利文献特点及自动分词的难点分析 30-31 3.2 基于规则和后缀数组相结合的自动分词技术 31-37 3.2.1 基于规则库的预切分方法 31-35 3.2.2 基于后缀数组的专利词汇抽取方法 35-37 3.3 实验结果及分析 37-39 3.3.1 评测方法 37-38 3.3.2 实验结果及分析 38-39 3.4 本章小结 39-40 第四章 检索结果排序 40-45 4.1 检索结果排序原理 40-41 4.2 LUCENE 相关性因素 41-42 4.3 自定义排序 42-44 4.3.1 传统的TF-IDF 公式 42-43 4.3.2 自定义排序公式 43-44 4.4 本章小结 44-45 第五章 生物医药专利服务平台检索子系统设计与实现 45-61 5.1 生物医药专利服务平台的简介 45-47 5.1.1 平台开发运行环境 45 5.1.2 服务平台介绍 45-47 5.2 基于LUCENE 的专利信息检索子系统的设计与实现 47-56 5.2.1 建立索引库过程 48-54 5.2.2 信息查询处理 54-56 5.3 系统运行效果及实验对比分析 56-60 5.3.1 系统运行效果 56-57 5.3.2 实验对比分析 57-60 5.4 本章小结 60-61 第六章 总结与展望 61-63 6.1 工作总结 61-62 6.2 展望 62-63 参考文献 63-68 攻读学位期间发表的论文 68-69 致谢 69-70
|
相似论文
- 太原市草坪杂草群落生态与科学管理研究,S451
- 中条山麻栎群落数量生态研究,Q948
- 煤矿开采区植被退化定量监测与评价,Q948
- 旅游对芦芽山国家级自然保护区典型植被的影响,S759.9
- 网络搜索引擎的相关技术研究,G354
- 工件排序问题的若干研究,O157.5
- 面向主题的Web文档自动文摘生成方法研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 双层车库车辆调度辅助决策支持系统,TP242
- 主观题自动评分技术研究,TP391.1
- 粒子滤波算法的硬件优化设计,TN713
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 基于社会标注的主题分类及排序优化方法研究,TP391.1
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
- 基于关联规则和图排序的句子情感倾向性研究,TP391.1
- 数据库全文检索方法研究及其应用,TP311.13
- 企业邮件监管系统的设计与实现,TP393.098
- 面向专利领域的中文文本分类与检索方法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|