学位论文 > 优秀研究生学位论文题录展示

基于Ajax/Lucene的站内搜索技术研究与实现

作 者: 丁士敏
导 师: 权义宁;吴标
学 校: 西安电子科技大学
专 业: 计算机技术
关键词: 全文检索 Lucene Ajax网络蜘蛛 中文分词
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 89次
引 用: 0次
阅 读: 论文下载
 

内容摘要


站内搜索引擎是搜索网站重要信息的必要工具,高效的站内搜索将有助于提升网站的价值,发挥网站应有的作用。虽然现在一些网络巨头已开始研究并应用这类工具,但整个互联网行业中,受制于技术的门槛,真正的站内搜索技术还没有被广泛的普及。因此,研究并开发站内搜索引擎具有重要的现实意义。本文主要研究与站内搜索相关的技术和方法,主要包括全文检索Lucene、Ajax、网络蜘蛛、中文分词等内容。在学习研究的基础上,设计并实现了一个站内搜索引擎;测试结果表明,该引擎具有实用价值。本文的主要工作:分析和设计站内搜索引擎系统。对总体架构的搭建、具体分模块的设计进行了详细的分析。接着,对构建站内搜索引擎中的几个关键问题进行了研究与改进。包括:网络蜘蛛,HTML解析器,中文分词算法,对Lucene排序算法做了改进。为了更好的体现出网页各部分内容的比重关系,在系统中引入词频位置加权算法的思想。最后用Eclipse开发平台结合几种开源API实现了Web站内搜索引擎系统。对系统进行了测试。测试结果表明,该站内搜索引擎系统完全能满足对中小型网站的站内搜索要求。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-13
  1.1 搜索引擎简介及其发展史  7-9
    1.1.1 什么是搜索引擎  7
    1.1.2 搜索引擎的发展史  7-9
  1.2 搜索引擎分类  9-10
  1.3 站内搜索的意义  10-11
  1.4 本文的主要工作  11-12
  1.5 论文组织  12-13
第二章 全文检索技术和LUCENE框架  13-27
  2.1 全文检索  13-15
    2.1.1 全文检索的含义和特点  13-14
    2.1.2 全文检索基本原理  14-15
  2.2 全文数据库的设计  15-19
    2.2.1 全文数据库的核心功能  16
    2.2.2 使用关系数据库系统构建的弊端  16-17
    2.2.3 使用文件系统构建的解决方案  17-19
  2.3 全文索引的组织  19-20
  2.4 LUCENE工具包  20-26
    2.4.1 LUCENE工具包简介  20-21
    2.4.2 LUCENE系统结构分析  21-22
    2.4.3 LUCENE数据流分析  22-23
    2.4.4 LUCENE索引格式分析  23-24
    2.4.5 LUCENE的全文索引与数据库的全文索引的比较  24-25
    2.4.6 系统调用的LUCENE类包分析  25-26
  2.5 本章小结  26-27
第三章 站内搜索引擎系统设计及其关键技术研究  27-47
  3.1 站内搜索引擎系统设计  27-31
    3.1.1 系统设计目标  27
    3.1.2 系统结构  27-28
    3.1.3 索引模块的设计  28-29
    3.1.4 检索模块的设计  29-30
    3.1.5 拟解决的关键问题  30-31
  3.2 站内网络蜘蛛  31-35
    3.2.1 网络蜘蛛简介  31
    3.2.2 URL处理器  31-32
    3.2.3 WEB信息提取器  32
    3.2.4 站内网络蜘蛛设计  32-35
  3.3 HTML解析  35-37
    3.3.1 HTML语法的解析  35-36
    3.3.2 使用JTIDY  36-37
  3.4 权值问题  37-39
    3.4.1 LUCENE评分机制  37-38
    3.4.2 词频位置加权算法  38-39
  3.5 中文分词  39-42
    3.5.1 单字切分算法  40
    3.5.2 二元切分算法  40-41
    3.5.3 词典切词算法  41-42
  3.6 排序问题  42-45
    3.6.1 PAGERANK排序算法  42-44
    3.6.2 对LUCENE排序算法的改进  44-45
  3.7 本章小结  45-47
第四章 站内搜索引擎的实现及性能测试  47-65
  4.1 开发平台及其开发工具  47-54
    4.1.1 AJAX框架  47-53
    4.1.2 JAVA的优点  53
    4.1.3 MYSQL  53-54
    4.1.4 WEB服务器TOMCAT  54
  4.2 索引器的核心实现  54-56
  4.3 检索器的核心实现  56
  4.4 数据库操作的实现  56-57
    4.4.1 JDBC工作原理  56-57
    4.4.2 MYSQL操作相关实现  57
  4.5 系统搜索界面的AJAX实现  57-61
    4.5.1 对浏览器的支持  57-58
    4.5.2 AJAX核心部分实现  58-61
  4.6 系统性能测试  61-63
  4.7 本章小结  63-65
第五章 结束语  65-67
  5.1 研究工作总结  65
  5.2 进一步的工作  65-67
致谢  67-69
参考文献  69-72

相似论文

  1. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  2. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  3. 主观题自动评分技术研究,TP391.1
  4. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  5. 中文XML压缩技术研究,TP311.11
  6. 网络智能答疑系统的研究与实现,TP393.09
  7. 仿真资源云存储技术的研究与实现,TP333
  8. 数据库全文检索方法研究及其应用,TP311.13
  9. 企业邮件监管系统的设计与实现,TP393.098
  10. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  11. 企业短信互动系统设计及实现关键技术研究,TN929.53
  12. 基于过滤技术的投诉信息智能分析与实现,TP391.1
  13. 基于词典和概率统计的中文分词算法研究,TP391.1
  14. 基于语义Web的信息检索技术研究,TP391.3
  15. 基于语义的金融企业非结构化信息检索系统研究,TP391.3
  16. 海量数据存储与全文检索,TP333
  17. 中文网页热门主题获取系统的研究与实现,TP393.092
  18. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  19. 安徽电力数字图书馆系统开发与应用,TP311.52
  20. SOM算法的改进及其在中文文本聚类的应用,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com