学位论文 > 优秀研究生学位论文题录展示

基于Web的中文元搜索引擎的研究及实现

作 者: 李霞
导 师: 李晓
学 校: 新疆大学
专 业: 计算机应用技术
关键词: 元搜索引擎 信息检索 开源 数据源 MVC 查全率 响应时间
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 40次
引 用: 0次
阅 读: 论文下载
 

内容摘要


信息检索是人们上网的主要目的之一,但目前两大主流中文搜索引擎Baidu和Google还存在一些需要研究解决的技术,如多关键词下如何提高搜索准确率、如何利用中文元搜索引擎以提高搜索召回率、中文元搜索引擎下如何实现快速同步查询功能等问题,这就涉及如何研究和实现基于元搜索的中文引擎系统。本论文以提高搜索引擎准确率为主要目标,研究和实现了中文元搜索引擎系统,主要创新点:(1)对目前比较流行的7个中文搜索已经进行查全率响应时间的比较,以及考虑html解析选取了百度和中搜作为中文元搜索引擎的基本数据源。(2)设计了元搜索引擎的总体框架,提出了请求提交代理、检索接口代理、结果合并代理三大功能模块,并阐述各代理的功能流程。(3)使用当前应用面流行的开源技术htmlparser解析html文本,提取相关有用的信息。与以往的元搜索引擎的开发相比节省了时间,提高了编码效率。(4)在元搜索引擎系统的设计实现方面,采用了MVC的设计模式,此模式是目前广泛的一种j基于web的软件设计模式,MVC英文即Model-View-Controller,即把一个应用的输入、处理、输出流程按照Model、View、Controller的方式进行分离,这样一个应用被分成三个层——模型层、视图层、控制层。(5)在元搜索引擎系统的设计实现方面,提出了数据库系统、软件系统、人机界面的设计方案,提供了用户登录界面,让每个查询用户能够对自己的搜索结果进行个性化调整。本文选择了中文元搜索引擎作为研究对象。在分析全文搜索引擎、目录搜索引擎等搜索引擎的优缺点的基础上,引入了元搜索引擎,采用一些新思想和新办法实现了中文元搜索引擎。面向用户搜索引擎的需求,指出了今后的研究方向。

全文目录


中文摘要  2-3
ABSTRACT  3-7
第1章 引言  7-14
  1.1 研究的背景  7-9
    1.1.1 搜索引擎的发展  7-8
    1.1.2 现代意义上的搜索引擎  8-9
  1.2 研究的动机  9-11
    1.2.1 传统搜索引擎的不足  9-10
    1.2.2 问题的分析与解决方法  10-11
  1.3 研究的意义  11
  1.4 主要工作  11-12
  1.5 论文的组织  12-14
第2章 元搜索引擎概述  14-21
  2.1 搜索引擎的概述  14
  2.2 搜索引擎的分类  14-17
  2.3 搜索引擎的基本原理  17-18
    2.3.1 数据检索与信息检索的区别  17
    2.3.2 搜索引擎的评价标准  17
    2.3.3 搜索引擎的检索模型  17-18
  2.4 元搜索引擎的概述  18-20
    2.4.1 元搜索引擎的基本原理  19
    2.4.2 元搜索引擎的基本构成  19-20
    2.4.3 元搜索引擎的分类  20
  2.5 本章小结  20-21
第3章 数据源的选取  21-24
  3.1 数据源选择的必要性  21
  3.2 数据源的选择方法  21-22
  3.3 各种中文搜索引擎的比较实验  22-23
    3.3.1 搜索结果比较  22
    3.3.2 搜索时间的比较  22-23
  3.4 元搜索引擎数据源的确定  23
  3.5 本章小结  23-24
第4章 元搜索引擎的相关算法  24-31
  4.1 文本选择算法  24-27
    4.1.1 用户指定算法  24
    4.1.2 权值分配算法  24-25
    4.1.3 基于学习的算法  25-26
    4.1.4 确保取回算法  26-27
  4.2 结果合并算法  27-30
    4.2.1 有关概念  27-28
    4.2.2 摘要排序算法  28-29
    4.2.3 位置排序算法  29
    4.2.4 摘要/位置排序法  29-30
    4.2.5 结果合成技术比较  30
  4.3 本章小结  30-31
第5章 中文元搜索引擎系统的模型设计  31-37
  5.1 系统总体结构和构架  31-34
    5.1.1 系统的核心思想  31-32
    5.1.2 中文元搜索引擎的系统流程图  32-33
    5.1.3 中文元搜索引擎的框架图  33-34
  5.2 请求提交代理  34-35
  5.3 检索接口代理  35
  5.4 结果显示代理  35-36
    5.4.1 结果排序  35-36
    5.4.2 结果显示  36
  5.5 本章小结  36-37
第6章 用JAVA 具体实现中文元搜索引擎  37-59
  6.1 系统开发环境  37
  6.2 中文元搜索引擎的实现  37-39
    6.2.1 目标  37
    6.2.2 系统模块  37-39
    6.2.3 数据库的设计  39
  6.3 关键技术  39-43
    6.3.1 MVC 设计模式  39-42
      6.3.1.1 MVC 的定义  39-40
      6.3.1.2 中文元搜索引擎当中的MVC 的设计  40-42
    6.3.2 开源技术  42-43
      6.3.2.1 开源的定义  42
      6.3.2.2 开源的htmlparser 文本解析技术  42-43
      6.3.2.3 htmlparser 解析方法  43
  6.4 请求提交代理  43-46
    6.4.1 用户界面  43-45
    6.4.2 结果页面设计  45-46
  6.5 检索接口代理  46-51
    6.5.1 URL 编码  46
    6.5.2 成员搜索引擎与URL 的连接  46-47
    6.5.3 成员搜索引擎的信息获取  47-48
    6.5.4 html 的解析  48-51
  6.6 结果显示代理  51-56
    6.6.1 去重和排序  51-54
    6.6.2 结果显示处理  54-55
    6.6.3 个性化管理  55-56
  6.7 系统测试和评价  56-58
    6.7.1 评价  56
    6.7.2 测试  56-58
  6.8 本章小结  58-59
第7章 总结  59-62
  7.1 中文元搜索引擎的局限性  60
  7.2 未来中文元搜索引擎的发展方向  60-61
  7.3 本文的后续研究  61-62
参考文献  62-65
发表论文  65-66
致谢  66-67

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 面向海量邮件的检索系统研究与实现,TP393.098
  3. 导电聚合物的电化学合成及其电致变色性能的研究,O631.3
  4. 洒水喷头动态热试验装置的研究,TU892
  5. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  6. 基于SOA与工作流的OA系统的研究与实现,TP311.52
  7. 基于Java EE框架的公文传输系统设计与实现,TP311.52
  8. OpenBASE企业管理器设计与实现,TP311.52
  9. 基于Struts2的校友管理与服务系统的设计与实现,TP311.52
  10. 攀枝花学院人事管理信息系统的设计与实现,TP311.52
  11. 社区WebGIS原型系统设计与实现,P208
  12. 基于Struts2与Hibernate的社区网站系统设计与实现,TP311.52
  13. 中国石油广域网智能管理系统设计与实现,TP311.52
  14. 基于RBAC的河道堤防管理信息系统之权限管理系统,TV871
  15. 开源软件许可证的法律效力研究,D923.4
  16. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  17. 江西现代学院OA系统的设计与实现,TP311.52
  18. 一个电子报纸发行系统的设计和实现,TP311.52
  19. 高校人力资源信息管理系统的设计和实现,TP311.52
  20. 基于稀疏非负矩阵分解的图像检索,TP391.41
  21. 跨语言文本分类的研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com