学位论文 > 优秀研究生学位论文题录展示

个性化搜索引擎的研究与设计

作 者: 史炜
导 师: 傅彦
学 校: 电子科技大学
专 业: 计算机应用技术
关键词: 信息检索 个性化搜索引擎 信息服务 网络爬虫 网页采集 网页分析
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 169次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的不断发展和日益普及,互联网上的信息也是增长快速,全世界的网页数量也高达40亿左右,在我国的数量也超过了3亿左右,与此同时搜索引擎的作用越来越显的极为重要,但是当前很多使用者对它的使用结果与预先想象的还是有很大的差距,原因就是在于用户查询到的信息往往是不需要的。浪费了大量的查询时间。为了提高搜索效率,就要在搜索引擎方面下功夫,所以搜索引擎还需要进一步的提高和发展。基于这一原因,本论文在分析网络服务的现有基础上,结合相关技术,规划了一个相对完整的个性化搜索引擎,并实现了它的一部分作用和功能。主要内容为:首先引入了搜索引擎的概念、分类、工作机制、搜索引擎的发展历史状况、个性化搜索引擎的根本工作原理及当前搜索引擎所存在的不足之处,其次描述了网络服务的定义和如何实现的一些环境、及当前网络服务的主要方法及以后的发展方向——个性化的搜索引擎,再次详细分析了当前WWW个性化搜索引擎的相关实例和个性化搜索引擎所需要的一系列技术,接着是设计出一个个性化搜索引擎系统,并对网络爬虫在搜索引擎中地位进行分析,并给出网络爬虫系统的总体设计,以及具体每个模块的设计,包括网页采集模块,网页分析模块,网页索引模块,最后实现了网络爬虫的各个功能模块,可以实现网页采集、存储扩展和网页分析的功能。

全文目录


摘要  4-5
ABSTRACT  5-10
第一章 引言  10-19
  1.1 论文研究的意义和背景  10-12
  1.2 相关研究内容  12-14
    1.2.1 搜索引擎  12
    1.2.2 搜索引擎发展的国内外概况  12-14
  1.3 搜索引擎的发展史  14-17
    1.3.1 搜索引擎的起源  14
    1.3.2 搜索引擎的发展  14-15
    1.3.3 目前个性化搜索引擎的不足  15-16
    1.3.4 搜索引擎发展趋势  16-17
  1.4 本篇论文的主要内容  17-18
  1.5 本章小结  18-19
第二章 搜索引擎  19-23
  2.1 搜索引擎的定义  19
  2.2 搜索引擎的分类  19-21
    2.2.1 全文索引  19-20
    2.2.2 目录索引  20-21
    2.2.3 元搜索引擎  21
    2.2.4 其他非主流搜索引擎形式  21
  2.3 搜索引擎的工作原理  21-22
    2.3.1 抓取网页  22
    2.3.2 处理网页  22
    2.3.3 提供检索服务  22
  2.4 本章小结  22-23
第三章 个性化搜索引擎理论模型、实现条件及方式  23-33
  3.1 个性化搜索引擎的理论模型  23
  3.2 个性化网络信息服务的概念  23-25
  3.3 实现个性化的具体条件  25-26
    3.3.1 丰富的信息数量  25
    3.3.2 柔性的页面结构  25
    3.3.3 完善的功能  25-26
  3.4 目前网络个性化服务的主要方式和目标  26-29
    3.4.1 个性化信息服务门户网站  26
    3.4.2 电子商务个性化服务系统  26-29
  3.5 个性化的WWW 的迅速发展和普及  29-30
  3.6 WWW 个性化信息服务实例  30-32
    3.6.1 国内个性化信息服务  30
    3.6.2 国外个性化信息服务  30-32
  3.7 本章小结  32-33
第四章 实现个性搜索引擎系统需要的主要技术  33-49
  4.1 智能代理AGENT  33-36
    4.1.1 概述  33-34
    4.1.2 信息代理  34
    4.1.3 技术实例  34-36
  4.2 概念检索技术  36-39
    4.2.1 概述  36-37
    4.2.2 技术实例  37-39
  4.3 用户兴趣挖掘技术  39-41
    4.3.1 实现方法  39-40
    4.3.2 系统文件  40
    4.3.3 个人与群体兴趣挖掘  40-41
  4.4 网络信息挖掘(WEB MINING)技术  41-43
    4.4.1 概述  41-42
    4.4.2 技术实现步骤  42-43
  4.5 信息推送技术  43-45
    4.5.1 概述  43
    4.5.2 推送技术的分类  43-45
  4.6 XML 可扩展标记语言  45-48
    4.6.1 概述  45-46
    4.6.2 XML 的优势  46-48
  4.7 本章小结  48-49
第五章 个性化搜索引擎总体设计  49-73
  5.1 系统的功能设计  49-51
    5.1.1 系统功能  49-50
    5.1.2 信息定制的内容  50-51
  5.2 系统总体设计框架  51-57
    5.2.1 系统总体框架图  51-52
    5.2.2 系统流程  52-54
    5.2.3 系统核心数据模型分析  54-57
  5.3 网络爬虫的分析和设计  57-72
    5.3.1 网络爬虫(spider)简介  57-58
    5.3.2 网络爬虫性能评价指标  58-59
    5.3.3 网络爬虫系统的设计目标  59
    5.3.4 网络爬虫系统的总体设计  59-60
    5.3.5 网页采集设计  60-64
    5.3.6 网页分析处理设计  64-69
    5.3.7 网页索引设计  69-72
  5.4 本章小结  72-73
第六章 个性化搜索引擎的实施与实现  73-91
  6.1 系统核心模块设计实现  73-89
    6.1.1 网络爬虫开发环境  73
    6.1.2 网页采集模块的设计与实现  73-78
    6.1.3 网页分析模块实现  78-86
    6.1.4 网页索引模块实现  86-89
  6.2 系统的应用及发展  89-90
  6.3 本章小结  90-91
第七章 结束语  91-92
致谢  92-93
参考文献  93-96

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 面向海量邮件的检索系统研究与实现,TP393.098
  3. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  4. 西部地区工科类高校教育信息化规划研究,G647
  5. 面向移动终端的多源信息发布订阅模型的应用研究,TP393.09
  6. 数字图书馆信息服务视域下的著作权问题研究,D923.41
  7. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  8. 基于SOA的车载信息服务计费系统的设计与实现,TP311.52
  9. EPC信息服务系统的研究与实现,TN929.5
  10. 基于GPRS无线远程监控系统的关键技术研究,TP872
  11. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  12. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  13. 论湖北软件及信息服务业公共服务平台构建,F426.672
  14. 医学信息共享空间模型、管理与实证研究,G353.1
  15. 基于移动终端的行业服务的若干问题研究,TP311.52
  16. 基于稀疏非负矩阵分解的图像检索,TP391.41
  17. 跨语言文本分类的研究,TP391.1
  18. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  19. 基于Google App Engine的移动信息服务的研究,TP393.09
  20. 排序学习损失函数的研究,TP181
  21. 基于点击的用户聚类的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com