学位论文 > 优秀研究生学位论文题录展示
面向网络爬虫的海量URL数据管理技术研究
作 者: 丁兴旺
导 师: 徐晓飞;张春慨
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: NC-Tire 缓存机制 流水线模型 海量URL管理
分类号: TP393.02
类 型: 硕士论文
年 份: 2008年
下 载: 121次
引 用: 1次
阅 读: 论文下载
内容摘要
海量URL的管理一直是提高网络爬虫性能的一个瓶颈。现在,网络规模越来越大,更新速度也变得越来越快,这些都促使网络爬虫系统来提高其性能。所以如何高效地管理网络爬虫的海量URL,使之能够满足网络爬虫高性能的要求,也就显得越来越重要了。为了能够解决网络爬虫海量URL的高效管理问题,本文从工程的角度,提出这样一个解决方案。它包括一个基于NC-Trie的索引结构、一个面向NC-Trie的缓存机制和一个基于计算机指令流水思想的任务处理体系结构。首先,根据网络爬虫所要管理的URL都是字符串这一特点,本文选取计算机界公认的处理字符串信息最为高效的结构——Tire结构,来作为网络爬虫海量URL管理的索引结构。但是,Trie结构在高效处理字符串的同时,也存在很多缺点。对存储空间的浪费就是Tire结构的最大缺点。因此针对网络爬虫系统海量URL管理的特点,在原有的Trie结构压缩方法的基础上,本文提出一个改进的Trie压缩结构——NC-Trie。NC-Trie比原有的C-Trie具有更高的压缩率,同时也保持了Trie结构高速访问的优点。其次,由于网络爬虫要管理的URL数量巨大,必须借助外存才能更好地实现高效管理。因此,必须对索引结构进行必要的缓存。针对爬虫系统对URL管理的特点,对于海量URL的索引的缓存,本文将采用最近最少用的替换策略,并采用一个转换后的实现算法,来实施缓存的更新。再者,根据网络爬虫对URL访问的特点,本文使用计算机指令流水的基本思想,对网络爬虫对URL的各种操作进行细分,然后重新进行统筹组合,使之具有更高的并发度,以满足现代计算机的检索计算要求。最后,本文将设计和实现一个面向网络爬虫的URL管理系统。这个系统将包含如下模块:预处理模块、NC-Trie缓存管理模块、记录结构解析模块和硬盘缓存访问管理模块等。该系统的实现,为将来相关算法和实验的研究提供了一个基础平台。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-15 1.1 课题研究背景和意义 9-10 1.1.1 研究背景 9 1.1.2 研究意义 9-10 1.2 课题研究现状 10-12 1.2.1 基于计算机内存的URL 管理方式 10-11 1.2.2 基于已有的数据库系统 11 1.2.3 基于文件系统 11-12 1.3 课题研究内容 12-13 1.3.1 快速索引技术 12-13 1.3.2 海量URL 管理的缓存策略 13 1.3.3 海量URL 管理任务流水模型 13 1.4 本文的结构安排 13-15 第2章 基于NC-Trie 的海量URL 索引技术 15-37 2.1 常用的索引技术介绍及分析 15-17 2.1.1 HASH 索引技术 15-16 2.1.2 树结构索引技术 16-17 2.1.3 Hybrid-TH 索引技术 17 2.2 Trie 索引技术 17-23 2.2.1 Trie 概述 17-19 2.2.2 Trie 结点的表示 19 2.2.3 Trie 压缩技术 19-23 2.3 海量URL 管理的索引技术-NC-Trie 23-32 2.3.1 NC-Trie 的定义 23-24 2.3.2 NC-Trie 的结点结构 24-25 2.3.3 NC-Trie 的操作算法 25-29 2.3.4 NC-Trie 的效率分析 29-31 2.3.5 NC-Trie 的并发控制 31-32 2.4 NC-Trie 的辅助压缩 32-33 2.4.1 压缩属性值域的元素个数 32 2.4.2 压缩属性序列的长度 32-33 2.4.3 MD5 预处理 33 2.5 NC-Trie 中N 的确定 33-37 2.5.1 NC-Trie 外存结点的表示 33-35 2.5.2 确定NC-Trie 中N 的实验 35 2.5.3 实验结果及其分析 35-37 第3章 海量URL 管理的缓存技术 37-49 3.1 NC-Trie 索引的缓存技术 37-42 3.1.1 NC-Trie 索引的缓存组织结构 37 3.1.2 NC-Tire 索引的缓存替换策略 37-38 3.1.3 NC-Tire 索引的缓存替换算法 38-40 3.1.4 NC-Trie 缓存的访问控制 40-42 3.2 NC-Trie 结点更新缓存 42-44 3.2.1 NC-Trie 更新结点的缓存组织 42 3.2.2 NC-Trie 更新结点的数据一致性 42-43 3.2.3 缓存内容更新优化 43-44 3.3 记录的缓存技术 44 3.3.1 记录的结构 44 3.3.2 记录的缓冲器设计 44 3.3.3 记录的缓存更新优化 44 3.4 记录缓存优化和NC-Trie 结点缓存优化试 44-46 3.4.1 实验描述 44-45 3.4.2 实验结果和分析 45-46 3.5 NC-Trie 索引缓存试验 46-49 3.5.1 实验描述 46-47 3.5.2 实验结果及分析 47-49 第4章 基于指令流水思想的海量URL 管理优化 49-56 4.1 引入指令流水模型原因 49 4.1.1 提高程序的并发度 49 4.1.2 提高计算机处理器执行指令效率 49 4.2 海量URL 的指令管理 49-50 4.3 海量URL 的查询指令流水模型 50-52 4.3.1 查询操作执行过程 50 4.3.2 查询任务的分割 50 4.3.3 查询任务处理器设计 50-52 4.4 海量URL 的更新指令流水模型 52-54 4.4.1 更新操作执行过程 52 4.4.2 更新任务分割 52 4.4.3 更新任务处理器的设计 52-54 4.5 优化后的效果及其分析 54-56 第5章 基于硬盘NC-Trie 索引的海量URL 管理系统 56-61 5.1 系统设计与实现 56-57 5.1.1 开发平台及工具 56 5.1.2 实现意义及目标 56 5.1.3 系统总体设计 56-57 5.2 系统详细设计 57 5.3 系统的模块设计 57-60 5.3.1 任务预处理器 57-58 5.3.2 NC-Trie 索引管理模块 58 5.3.3 记录管理模块 58-59 5.3.4 任务流水线 59-60 5.3.5 外存优化访问管理器 60 5.3.6 流水线管理器 60 5.4 本章小结 60-61 结论 61-62 参考文献 62-66 致谢 66
|
相似论文
- BlueOcean海量存储系统客户端的设计与实现,TP333
- 高性能iSCSI系统的设计与实现,TP333
- 基于V850/MS1硬件系统模拟器的研究与实现,TP368.12
- 目录服务器缓存技术研究,TP333
- 分层超级结点MP2P资源定位与分发研究,TP393.02
- 无线P2P网络中资源搜索技术的研究,TN929.5
- P2P流媒体缓存管理机制研究,TN919.8
- 基于P2P-CDN的流媒体缓存机制研究与实现,TN919.8
- 基于流水线模型的Ad Hoc网络信息传递技术研究,TN929.5
- P2P流媒体系统缓存及调度策略研究,TP393.02
- 基于Chord的服务标识解析系统的仿真与性能分析,TP393.02
- 基于JAVA的企业短信平台及应用产品的设计与实现,TP311.52
- P2P视频点播客户端缓存机制研究与实现,TN948.64
- 基于RFID与WebGIS技术的仓储管理系统研究与实现,TP311.52
- 搜索引擎检索技术研究,TP391.3
- 移动Ad Hoc网络中ZRP路由协议缓存机制优化策略的研究,TN929.5
- 语音增值业务平台中关键模块及缓存机制的设计与实现,TP311.52
- 数据复制模块在ATC中的设计和实现,TP311.52
- 网络存储服务器缓存替换策略研究,TP393.05
- 扩展组织PKI网络访问控制方法研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络结构与设计
© 2012 www.xueweilunwen.com
|