学位论文 > 优秀研究生学位论文题录展示
基于Ajax/Lucene的站内搜索技术研究与实现
作 者: 丁士敏
导 师: 权义宁;吴标
学 校: 西安电子科技大学
专 业: 计算机技术
关键词: 全文检索 Lucene Ajax网络蜘蛛 中文分词
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 89次
引 用: 0次
阅 读: 论文下载
内容摘要
站内搜索引擎是搜索网站重要信息的必要工具,高效的站内搜索将有助于提升网站的价值,发挥网站应有的作用。虽然现在一些网络巨头已开始研究并应用这类工具,但整个互联网行业中,受制于技术的门槛,真正的站内搜索技术还没有被广泛的普及。因此,研究并开发站内搜索引擎具有重要的现实意义。本文主要研究与站内搜索相关的技术和方法,主要包括全文检索、Lucene、Ajax、网络蜘蛛、中文分词等内容。在学习研究的基础上,设计并实现了一个站内搜索引擎;测试结果表明,该引擎具有实用价值。本文的主要工作:分析和设计站内搜索引擎系统。对总体架构的搭建、具体分模块的设计进行了详细的分析。接着,对构建站内搜索引擎中的几个关键问题进行了研究与改进。包括:网络蜘蛛,HTML解析器,中文分词算法,对Lucene排序算法做了改进。为了更好的体现出网页各部分内容的比重关系,在系统中引入词频位置加权算法的思想。最后用Eclipse开发平台结合几种开源API实现了Web站内搜索引擎系统。对系统进行了测试。测试结果表明,该站内搜索引擎系统完全能满足对中小型网站的站内搜索要求。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-13 1.1 搜索引擎简介及其发展史 7-9 1.1.1 什么是搜索引擎 7 1.1.2 搜索引擎的发展史 7-9 1.2 搜索引擎分类 9-10 1.3 站内搜索的意义 10-11 1.4 本文的主要工作 11-12 1.5 论文组织 12-13 第二章 全文检索技术和LUCENE框架 13-27 2.1 全文检索 13-15 2.1.1 全文检索的含义和特点 13-14 2.1.2 全文检索基本原理 14-15 2.2 全文数据库的设计 15-19 2.2.1 全文数据库的核心功能 16 2.2.2 使用关系数据库系统构建的弊端 16-17 2.2.3 使用文件系统构建的解决方案 17-19 2.3 全文索引的组织 19-20 2.4 LUCENE工具包 20-26 2.4.1 LUCENE工具包简介 20-21 2.4.2 LUCENE系统结构分析 21-22 2.4.3 LUCENE数据流分析 22-23 2.4.4 LUCENE索引格式分析 23-24 2.4.5 LUCENE的全文索引与数据库的全文索引的比较 24-25 2.4.6 系统调用的LUCENE类包分析 25-26 2.5 本章小结 26-27 第三章 站内搜索引擎系统设计及其关键技术研究 27-47 3.1 站内搜索引擎系统设计 27-31 3.1.1 系统设计目标 27 3.1.2 系统结构 27-28 3.1.3 索引模块的设计 28-29 3.1.4 检索模块的设计 29-30 3.1.5 拟解决的关键问题 30-31 3.2 站内网络蜘蛛 31-35 3.2.1 网络蜘蛛简介 31 3.2.2 URL处理器 31-32 3.2.3 WEB信息提取器 32 3.2.4 站内网络蜘蛛设计 32-35 3.3 HTML解析 35-37 3.3.1 HTML语法的解析 35-36 3.3.2 使用JTIDY 36-37 3.4 权值问题 37-39 3.4.1 LUCENE评分机制 37-38 3.4.2 词频位置加权算法 38-39 3.5 中文分词 39-42 3.5.1 单字切分算法 40 3.5.2 二元切分算法 40-41 3.5.3 词典切词算法 41-42 3.6 排序问题 42-45 3.6.1 PAGERANK排序算法 42-44 3.6.2 对LUCENE排序算法的改进 44-45 3.7 本章小结 45-47 第四章 站内搜索引擎的实现及性能测试 47-65 4.1 开发平台及其开发工具 47-54 4.1.1 AJAX框架 47-53 4.1.2 JAVA的优点 53 4.1.3 MYSQL 53-54 4.1.4 WEB服务器TOMCAT 54 4.2 索引器的核心实现 54-56 4.3 检索器的核心实现 56 4.4 数据库操作的实现 56-57 4.4.1 JDBC工作原理 56-57 4.4.2 MYSQL操作相关实现 57 4.5 系统搜索界面的AJAX实现 57-61 4.5.1 对浏览器的支持 57-58 4.5.2 AJAX核心部分实现 58-61 4.6 系统性能测试 61-63 4.7 本章小结 63-65 第五章 结束语 65-67 5.1 研究工作总结 65 5.2 进一步的工作 65-67 致谢 67-69 参考文献 69-72
|
相似论文
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 主观题自动评分技术研究,TP391.1
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
- 数据库全文检索方法研究及其应用,TP311.13
- 企业邮件监管系统的设计与实现,TP393.098
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 企业短信互动系统设计及实现关键技术研究,TN929.53
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
- 基于词典和概率统计的中文分词算法研究,TP391.1
- 基于语义Web的信息检索技术研究,TP391.3
- 基于语义的金融企业非结构化信息检索系统研究,TP391.3
- 海量数据存储与全文检索,TP333
- 中文网页热门主题获取系统的研究与实现,TP393.092
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 安徽电力数字图书馆系统开发与应用,TP311.52
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|