学位论文 > 优秀研究生学位论文题录展示
数字图书馆中信息搜索关键技术研究
作 者: 李静
导 师: 刘新;胡运发
学 校: 复旦大学
专 业: 软件工程
关键词: 网络机器人 网络蜘蛛 全文检索 文本信息检索 关键词检索 Lucene
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 158次
引 用: 1次
阅 读: 论文下载
内容摘要
信息检索是数字图书馆中重要技术之一,论文主要研究了数字图书馆中文本信息搜索关键技术。论文首先对全文检索系统进行了总体设计,之后重点论述了全文检索系统各部分的具体设计和实现过程,其中包括基于HTTP协议并采用Java多线程技术实现网络蜘蛛程序Spider,该模块以广度优先搜索方式搜索网络中的超链接,并使用SQL数据库存储作业队列,采用JDBC技术访问DBMS;基于Lucene的单字切分技术及其提供的API接口编写索引器,该模块集成了HTMLParser和TextMining的纯文本内容抽取技术,可处理HTML、TXT等纯文本文件和WORD、PDF等具有特殊格式的文件;设计实现检索器及用户界面,检索功能包括对中、英文的关键词检索、关键词组合检索,以及二次检索,近义词相关检索,同时该模块通过自动对查询语句串的分析以及对被索引文件文本内容的分析实现了对查询结果的高亮显示。论文最终所实现的全文检索系统可以不使用词表切分,方便进行精确检索,进而提高了检索速度和准确性。
|
全文目录
目录 2-4 摘要 4-5 ABSTRACT 5-6 第一章 绪论 6-9 1.1 数字图书馆与全文检索简介 6-7 1.2 论文研究背景 7 1.3 本文研究内容及组织结构 7-9 第二章 搜索引擎及LUCENE简介 9-19 2.1 搜索引擎简介 9-13 2.1.1 搜索引擎发展史 9-10 2.1.2 搜索引擎的种类 10-11 2.1.3 搜索引擎原理 11-12 2.1.4 搜索引擎的发展方向 12-13 2.2 LUCENE简介 13-19 2.2.1 LUCENE的索引/检索机制 13-14 2.2.2 LUCENE的中文分词 14-15 2.2.3 LUCENE的倒排索引原理 15-17 2.2.4 使用QUERYPARSER实现检索 17-19 第三章 课题总体设计 19-22 3.1 搜索引擎结构设计 19-20 3.2 搜索引擎数据库设计 20-22 第四章 网络机器人 22-43 4.1 HTTP协议 22-24 4.2 HTML标签解析 24-28 4.2.1 HTML文档结构 24-26 4.2.2 网页标签 26-28 4.3 JAVA套接字编程 28-31 4.4 JAVA线程编程 31-32 4.5 编写网络机器人程序 32-43 4.5.1 SPIDER程序结构 32-34 4.5.2 数据库设计 34-36 4.5.3 编写SPIDER程序 36-43 第五章 索引模块 43-53 5.1 LUCENE的索引接口 43-44 5.2 建立索引 44-52 5.2.1 数据库设计 44 5.2.2 索引模块的编程实现 44-48 5.2.3 从WORD、PDF文档中提取纯文本内容 48-50 5.2.4 HTMLPARSER提取网页内容 50-52 5.3 管理索引 52-53 第六章 检索模块 53-64 6.1 精确检索 53 6.2 关键词组合检索 53-56 6.3 查询结果的高亮显示 56-58 6.4 二次检索 58-60 6.5 近义词表实现相关检索 60-64 第七章 结论 64-65 参考文献 65-67 致谢 67-68
|
相似论文
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 人类抗原肽载体结合力预测,R392.1
- 基于OAI-PMH协议及全文检索技术的图书馆联合目录系统,TP391.3
- 全文检索及相关技术研究,TP391.3
- 基于WebGIS和MMS的移动搜索服务系统开发,TP311.52
- 消防领域搜索引擎系统的设计与实现,TP391.3
- LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 基于Lucene的知识库设计与实现,TP311.52
- 基于Lucene的电影票垂直搜索系统的设计与实现,TP391.3
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
- 数据库全文检索方法研究及其应用,TP311.13
- 基于Lucene.Net的全文检索研究与应用,TP391.3
- 公众论坛信息实时检索的研究与实现,TP391.3
- 基于内容的图像检索系统的设计与实现,TP311.52
- 企业短信互动系统设计及实现关键技术研究,TN929.53
- 基于Web搜索引擎系统的设计与实现,TP391.3
- 基于语义Web的信息检索技术研究,TP391.3
- 基于语义的金融企业非结构化信息检索系统研究,TP391.3
- 海量数据存储与全文检索,TP333
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|