学位论文 > 优秀研究生学位论文题录展示
基于Web的中文元搜索引擎的研究及实现
作 者: 李霞
导 师: 李晓
学 校: 新疆大学
专 业: 计算机应用技术
关键词: 元搜索引擎 信息检索 开源 数据源 MVC 查全率 响应时间
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 40次
引 用: 0次
阅 读: 论文下载
内容摘要
信息检索是人们上网的主要目的之一,但目前两大主流中文搜索引擎Baidu和Google还存在一些需要研究解决的技术,如多关键词下如何提高搜索准确率、如何利用中文元搜索引擎以提高搜索召回率、中文元搜索引擎下如何实现快速同步查询功能等问题,这就涉及如何研究和实现基于元搜索的中文引擎系统。本论文以提高搜索引擎准确率为主要目标,研究和实现了中文元搜索引擎系统,主要创新点:(1)对目前比较流行的7个中文搜索已经进行查全率和响应时间的比较,以及考虑html解析选取了百度和中搜作为中文元搜索引擎的基本数据源。(2)设计了元搜索引擎的总体框架,提出了请求提交代理、检索接口代理、结果合并代理三大功能模块,并阐述各代理的功能流程。(3)使用当前应用面流行的开源技术htmlparser解析html文本,提取相关有用的信息。与以往的元搜索引擎的开发相比节省了时间,提高了编码效率。(4)在元搜索引擎系统的设计实现方面,采用了MVC的设计模式,此模式是目前广泛的一种j基于web的软件设计模式,MVC英文即Model-View-Controller,即把一个应用的输入、处理、输出流程按照Model、View、Controller的方式进行分离,这样一个应用被分成三个层——模型层、视图层、控制层。(5)在元搜索引擎系统的设计实现方面,提出了数据库系统、软件系统、人机界面的设计方案,提供了用户登录界面,让每个查询用户能够对自己的搜索结果进行个性化调整。本文选择了中文元搜索引擎作为研究对象。在分析全文搜索引擎、目录搜索引擎等搜索引擎的优缺点的基础上,引入了元搜索引擎,采用一些新思想和新办法实现了中文元搜索引擎。面向用户搜索引擎的需求,指出了今后的研究方向。
|
全文目录
中文摘要 2-3 ABSTRACT 3-7 第1章 引言 7-14 1.1 研究的背景 7-9 1.1.1 搜索引擎的发展 7-8 1.1.2 现代意义上的搜索引擎 8-9 1.2 研究的动机 9-11 1.2.1 传统搜索引擎的不足 9-10 1.2.2 问题的分析与解决方法 10-11 1.3 研究的意义 11 1.4 主要工作 11-12 1.5 论文的组织 12-14 第2章 元搜索引擎概述 14-21 2.1 搜索引擎的概述 14 2.2 搜索引擎的分类 14-17 2.3 搜索引擎的基本原理 17-18 2.3.1 数据检索与信息检索的区别 17 2.3.2 搜索引擎的评价标准 17 2.3.3 搜索引擎的检索模型 17-18 2.4 元搜索引擎的概述 18-20 2.4.1 元搜索引擎的基本原理 19 2.4.2 元搜索引擎的基本构成 19-20 2.4.3 元搜索引擎的分类 20 2.5 本章小结 20-21 第3章 数据源的选取 21-24 3.1 数据源选择的必要性 21 3.2 数据源的选择方法 21-22 3.3 各种中文搜索引擎的比较实验 22-23 3.3.1 搜索结果比较 22 3.3.2 搜索时间的比较 22-23 3.4 元搜索引擎数据源的确定 23 3.5 本章小结 23-24 第4章 元搜索引擎的相关算法 24-31 4.1 文本选择算法 24-27 4.1.1 用户指定算法 24 4.1.2 权值分配算法 24-25 4.1.3 基于学习的算法 25-26 4.1.4 确保取回算法 26-27 4.2 结果合并算法 27-30 4.2.1 有关概念 27-28 4.2.2 摘要排序算法 28-29 4.2.3 位置排序算法 29 4.2.4 摘要/位置排序法 29-30 4.2.5 结果合成技术比较 30 4.3 本章小结 30-31 第5章 中文元搜索引擎系统的模型设计 31-37 5.1 系统总体结构和构架 31-34 5.1.1 系统的核心思想 31-32 5.1.2 中文元搜索引擎的系统流程图 32-33 5.1.3 中文元搜索引擎的框架图 33-34 5.2 请求提交代理 34-35 5.3 检索接口代理 35 5.4 结果显示代理 35-36 5.4.1 结果排序 35-36 5.4.2 结果显示 36 5.5 本章小结 36-37 第6章 用JAVA 具体实现中文元搜索引擎 37-59 6.1 系统开发环境 37 6.2 中文元搜索引擎的实现 37-39 6.2.1 目标 37 6.2.2 系统模块 37-39 6.2.3 数据库的设计 39 6.3 关键技术 39-43 6.3.1 MVC 设计模式 39-42 6.3.1.1 MVC 的定义 39-40 6.3.1.2 中文元搜索引擎当中的MVC 的设计 40-42 6.3.2 开源技术 42-43 6.3.2.1 开源的定义 42 6.3.2.2 开源的htmlparser 文本解析技术 42-43 6.3.2.3 htmlparser 解析方法 43 6.4 请求提交代理 43-46 6.4.1 用户界面 43-45 6.4.2 结果页面设计 45-46 6.5 检索接口代理 46-51 6.5.1 URL 编码 46 6.5.2 成员搜索引擎与URL 的连接 46-47 6.5.3 成员搜索引擎的信息获取 47-48 6.5.4 html 的解析 48-51 6.6 结果显示代理 51-56 6.6.1 去重和排序 51-54 6.6.2 结果显示处理 54-55 6.6.3 个性化管理 55-56 6.7 系统测试和评价 56-58 6.7.1 评价 56 6.7.2 测试 56-58 6.8 本章小结 58-59 第7章 总结 59-62 7.1 中文元搜索引擎的局限性 60 7.2 未来中文元搜索引擎的发展方向 60-61 7.3 本文的后续研究 61-62 参考文献 62-65 发表论文 65-66 致谢 66-67
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 导电聚合物的电化学合成及其电致变色性能的研究,O631.3
- 洒水喷头动态热试验装置的研究,TU892
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于SOA与工作流的OA系统的研究与实现,TP311.52
- 基于Java EE框架的公文传输系统设计与实现,TP311.52
- OpenBASE企业管理器设计与实现,TP311.52
- 基于Struts2的校友管理与服务系统的设计与实现,TP311.52
- 攀枝花学院人事管理信息系统的设计与实现,TP311.52
- 社区WebGIS原型系统设计与实现,P208
- 基于Struts2与Hibernate的社区网站系统设计与实现,TP311.52
- 中国石油广域网智能管理系统设计与实现,TP311.52
- 基于RBAC的河道堤防管理信息系统之权限管理系统,TV871
- 开源软件许可证的法律效力研究,D923.4
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 江西现代学院OA系统的设计与实现,TP311.52
- 一个电子报纸发行系统的设计和实现,TP311.52
- 高校人力资源信息管理系统的设计和实现,TP311.52
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|