学位论文 > 优秀研究生学位论文题录展示
垂直搜索引擎在网络购物系统中的研究与应用
作 者: 丁文
导 师: 魏振钢
学 校: 中国海洋大学
专 业: 计算机软件与理论
关键词: 网络购物 垂直搜索引擎 专题网络蜘蛛 信息检索
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 88次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的迅速发展,互联网已经成为了当今世界上最大的信息存储库,它为人们提供了良好的信息共享和资源共享的服务。但是互联网上信息量的急剧增加也带了大量的重复信息和垃圾信息,用户很难在这种环境中找到自己需求的信息及资源,那么如何高效地检索互联网信息就成为了必须解决的问题。在这种情况下,针对特定的人群及特定的领域范围的垂直搜索引擎就应运而生,也成为了搜索引擎的一个研究热点。本论文的研究就是围绕这一热点展开的。本文研究了如何实现一个应用于购物系统的针对网络购物的购物垂直搜索引擎。本文对通用搜索引擎的工作原理和主要组成部分作了介绍,进而讲述了垂直搜索引擎的特点。为了实现该系统,本文引入了通用搜索引擎的架构模型,即网络抓取、预处理和索引、检索器、用户接口四部分,重点讲述了这些组成部分各自的工作原理和实现方式,阐述了专题网络蜘蛛的搜索策略及信息过滤方法,如何对网页信息进行预处理以满足索引的建立需要,如何建立最终的数据索引,以及对搜索结果的大量网页进行排序。其中还用到了开源的全文索引引擎Apache Lucene和网页抓取Heritrix,对它们也做了介绍。在设计开发的过程中,依照现代软件工作的代码重用要求重用了其中的部分源码,并在它们的基础上进行了进一步的改进,更好实现了系统所需功能,以使它们更好地为系统服务。本文所设计的垂直搜索引擎与目前的通用搜索引擎的最大区别就在于是否面向于特定的人群以及针对了专业的搜索范围,在购物系统中具有其可应用性,相信垂直搜索引擎能够为本领域内的用户提供很大的方便和帮助。
|
全文目录
摘要 5-6 Abstract 6-11 1. 绪论 11-15 1.1 课题来源及研究背景 11-12 1.2 国内外的研究现状 12-13 1.3 课题的内容及意义 13 1.4 论文的组织结构及内容 13-15 2. 搜索引擎概述 15-24 2.1 通用搜索引擎的发展过程及分类 15-18 2.1.1 通用搜索引擎的历史 15-16 2.1.2 通用搜索引擎的分类 16-18 2.2 通用搜索引擎的工作原理及主要技术 18-22 2.2.1 数据挖掘 18-19 2.2.2 通用搜索引擎的工作原理 19-20 2.2.3 通用搜索引擎的主要技术 20-22 2.4 搜索引擎的性能评价指标 22-23 2.5 本章小结 23-24 3. 垂直搜索引擎的系统设计 24-28 3.1 垂直搜索引擎的定义 24 3.2 垂直搜索引擎的系统设计及组成原理 24-26 3.3 垂直搜索引擎的优点与必要性 26-27 3.4 本章小结 27-28 4. 网页抓取子系统 28-43 4.1 网络蜘蛛 28-32 4.1.1 通用网络蜘蛛 28-29 4.1.2 主题网络蜘蛛 29-31 4.1.3 主题网络蜘蛛的优越性 31-32 4.2 网页搜索策略 32-35 4.2.1 深度优先策略 33 4.2.2 广度优先策略 33-34 4.2.3 不重复抓取策略 34-35 4.3 主题网络蜘蛛的结构设计 35-36 4.4 网页抓取的实现 36-42 4.4.1 Heritrix 介绍 36-38 4.4.2 抓取网页 38-42 4.5 本章小结 42-43 5. 预处理和索引子系统 43-57 5.1 网页预处理的实现 43-49 5.1.1 HTML 基本语法分析 43-45 5.1.2 HTML Parser 简介 45-46 5.1.3 抽取网页信息 46-49 5.2 倒排索引 49-51 5.2.1 倒排索引 49-50 5.2.2 倒排索引的建立 50-51 5.3 建立索引模块的实现 51-56 5.3.1 Lucene 简介 51-52 5.3.2 Lucene 的优点 52-53 5.3.3 Lucene 的结构 53-54 5.3.4 建立索引 54-56 5.4 本章小结 56-57 6. 用户接口子系统 57-61 6.1 查询界面及结果返回 57-58 6.2 搜索结果排序技术 58-59 6.3 与通用搜索引擎的对比 59-60 6.4 本章小结 60-61 7. 总结与展望 61-62 7.1 工作总结 61 7.2 未来展望 61-62 参考文献 62-65 致谢 65-66 个人简历 66 发表的学术论文 66
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 区别对待不同类型网络购物平台提供商的法律责任,D923.8
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 排序学习损失函数的研究,TP181
- 基于点击的用户聚类的研究,TP311.13
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 网络购物环境下消费者知情权法律保护研究,D923.8
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于Web的医学文献数据库的设计与实现,TP311.13
- 基于语义Web的信息检索技术研究,TP391.3
- 消费者社交网站购物态度影响因素的实证研究,F224
- 大学生网络购物顾客满意度测评研究,F724.6;F224
- 基于OWL的地名本体构建与检索机制研究,P208
- 面向地名本体服务的空间信息检索研究,P208
- 论网络购物中消费者知情权的保护,D923.8
- 基于内容与链接的页面价值算法研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|