学位论文 > 优秀研究生学位论文题录展示
基于移动搜索的Spider爬行策略的研究和实现
作 者: 祁鹏
导 师: 丁照宇
学 校: 成都理工大学
专 业: 计算机应用技术
关键词: 移动搜索引擎 信息检索 爬虫 聚焦爬虫 链接分析
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 90次
引 用: 1次
阅 读: 论文下载
内容摘要
移动搜索是指用户在移动通信网络中,通过移动终端设备,利用SMS(Short Messaging Service)、WAP(Wireless Application Protocol)、IVR(Interactive voice response)等多种特定搜索方式获取所需信息的一种搜索行为。移动搜索技术的核心是将搜索引擎与移动设备有机结合,生成符合移动产品和满足用户需求的搜索方式。从而摆脱固定设备和固定通信网对用户的束缚,实现随时随地的获取自己所需信息的目的。手机移动搜索作为搜索技术与移动通信技术的一种结合体,融合了两种技术的特点。移动搜索是网络搜索引擎在移动终端的延伸,是未来主流搜索引擎发展的一个重要趋势。尽管目前仍面临很多问题,但移动搜索的崛起已是大势所趋。伴随着3G商用以及4G时代的来临,移动搜索必将逐步迈进高速发展的新时代。本文从移动搜索引擎目前的发展现状和存在的种类入手,阐述了搜索引擎爬取页面信息的基本工作原理、网络机器人的构成及其在WAP页面爬取过程中所发挥的作用,并重点分析了基于网页爬取的算法策略。通过对Web结构的挖掘分析,并与链接种类的研究想结合,本文根据移动终端设备在实际使用中的情况设计出一种针对高质量网页和潜在的高质量网页为爬取目标的网络机器人爬取策略,并只爬取最有价值的首层页面。本文的主要研究内容包括以下几个方面:1.通过对一般网络机器人运行机制的分析以及对爬虫基于开源算法的爬取策略的分析,提出本文设计所用网络爬虫的体系结构,并总结了搜索引擎中爬虫的基本性质。2.研究基于WAP搜索引擎的系统结构和WAP爬虫的基本工作原理,针对移动通信平台设计一种对待检索页面进行有效爬取的方法;3.本文在前人对PageRank算法改进的基础上针对移动搜索实际需要只选择所获得结果的前20条信息返回给用户。4.第六章提出一种基于爬虫系统的移动阅读软件设计方案及实现方法。5.对运行结果和下一步本课题的实现内容做了一个简单的分析,并对移动搜索引擎在3G时代及后续的4G中的应用前景做了一个展望。
|
全文目录
摘要 4-6 ABSTRACT 6-10 第1章 引言 10-15 1.1 选题依据 11-13 1.1.1 网络爬虫对于信息检索的重要性 11 1.1.2 网络爬虫研究现状 11-12 1.1.3 WAP 网页爬取技术研究的意义 12-13 1.2 论文研究内容及创新点 13-15 1.2.1 论文研究内容 13-14 1.2.2 论文创新点 14-15 第2章 网络爬虫基本原理及关键技术 15-26 2.1 网络爬虫的基本原理 15-23 2.1.1 WAP 爬虫工作方式 19-22 2.1.2 爬虫的难题 22 2.1.3 爬虫的更新周期 22-23 2.2 WAP 网络爬虫关键技术 23-25 2.2.1 逐层爬取策略 23 2.2.2 不重复爬取策略 23-24 2.2.3 网页重访策略 24-25 2.2.4 Robots 协议 25 2.3 本章小结 25-26 第3章 网页信息处理方法 26-46 3.1 网页信息预处理 26-34 3.1.1 几种标记语言简介及HTTP 协议 27-31 3.1.2 网页信息的结构化 31-33 3.1.3 获取网页信息 33-34 3.2 建立索引和实现查询 34-40 3.2.1 索引的建立及其在搜索引擎中的作用 35-36 3.2.2 索引策略 36-40 3.3 进行WML 转换 40-42 3.3.1 WAP 体系与结构 40-41 3.3.2 HTML 到WML 转换 41-42 3.4 PageRank 算法及其改进 42-46 3.4.1 问题的提出 42 3.4.2 PageRank 算法思想 42-44 3.4.3 PageRank 算法改进 44-46 第4章 基于移动Spider 爬取策略的研究与设计 46-53 4.1 查询语句解析 46-47 4.2 引擎在 Spider 爬取信息过程中的查询策略 47-48 4.3 结果去重与过滤 48-49 4.4 搜索结果排序 49-52 4.5 搜索策略总体流程 52-53 第5章 基于移动搜索爬取策略的手机阅读检索功能实现 53-67 5.1 移动搜索Spider 爬行策略简介 53-54 5.2 服务器网关要实现的内容 54-58 5.2.1 手机阅读软件客户端需实现的功能 55 5.2.2 手机阅读软件客户端和服务器网关之间的通信 55-56 5.2.3 服务器网关的框架设计 56-58 5.3 Spider 爬行网页信息模块功能实现API 58-60 5.4 Spider 运行爬行程序过程中索引的维护 60-64 5.4.1 Spider 运行爬行程序过程中索引存储方式 61-63 5.4.2 Spider 运行爬行程序过程中索引插入与删除 63-64 5.5 Spider 运行爬行程序过程中索引策略总体流程 64-65 5.6 手机阅读软件检索资源运行实例 65-67 结论 67-68 1. 研究成果 67 2. 建议 67-68 致谢 68-69 参考文献 69-73 攻读学位期间取得学术成果 73
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于语义网络的智能搜索引擎研究,TP391.3
- 基于聚焦爬虫技术的教学资源搜集与自动整理方法研究,TP301.6
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 数据库全文检索方法研究及其应用,TP311.13
- 排序学习损失函数的研究,TP181
- 基于点击的用户聚类的研究,TP311.13
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 主题搜索引擎中的爬取技术研究,TP391.3
- 网络舆情分析关键技术研究与实现,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|