学位论文 > 优秀研究生学位论文题录展示
基于网页分块的主题搜索引擎的研究与实现
作 者: 高乐
导 师: 张健
学 校: 浙江工业大学
专 业: 计算机应用技术
关键词: 主题搜索引擎 网页分块 CTVPS 主题提取 Nutch Search Smart
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 213次
引 用: 2次
阅 读: 论文下载
内容摘要
搜索引擎解决了网上查找信息难的问题。随着网络信息指数级增长以及行业分工不断加大,针对专业领域的信息搜索在精度和深度方面要求日益提高,主题搜索引擎必然成为搜索引擎的发展方向。然而,随着网页主题的多元化,以网页为最小单位进行处理的主题搜索引擎存在链接预测不准确、隧道穿越能力低、网页消重效果差、检索质量不高等问题,导致了主题搜索时易出现主题漂移现象。基于以上问题,本文将网页分块技术应用于主题搜索,在主题搜索时将网页中的内容块作为最小处理单元,而不再是整个网页。但传统网页分块算法对多主题网页分块效果不好,因此不适合应用到主题搜索引擎中。针对这一问题,本文提出一种能适应多主题网页分块的新算法CTVPS,该算法充分利用网页中的视觉信息、标签信息和链接信息,同时在分块过程中提出若干启发规则来控制分块的精度和粒度。在完成了网页分块的基础上,本文提出了与之适应的主题相关块提取方法即将文本分类中的分类模型移植到内容块分类中,实现了主题相关内容块的提取。最终使主题搜索引擎在链接预测准确度、索引容量和检索质量等问题上得到较大改进,从而降低主题漂移问题的出现。在基于网页分块的主题搜索引擎系统Search Smart的设计和实现中,本文将网页分块作为Search Smart的核心,同时对开源搜索引擎Nutch进行了分析和代码复用。最后,通过Search Smart系统的运行和测试,对系统的爬行性能、检索质量两个重要指标进行了结果分析,最终验证了本文思想正确性并提出后续可能的改进方向。
|
全文目录
摘要 5-6 ABSTRACT 6-9 第1章 绪论 9-16 1.1 研究背景 9-13 1.1.1 主题搜索引擎 9-11 1.1.2 网页分块的提出 11-12 1.1.3 网页分块研究现状 12-13 1.2 研究意义 13 1.3 本文主要工作 13-14 1.4 论文组织结构 14-16 第2章 主题搜索引擎与网页分块技术 16-31 2.1 主题搜索引擎 16-20 2.1.1 搜索引擎基本工作原理 16-17 2.1.2 主题搜索引擎与通用搜索引擎的区别 17-19 2.1.3 主题搜索引擎的关键技术 19-20 2.2 网页分块 20-25 2.2.1 网页的结构特征 20-21 2.2.2 网页分块基本技术手段 21-24 2.2.3 网页分块的应用 24-25 2.3 网页分块应用在主题搜索中的主要作用 25-30 2.3.1 链接预测 26 2.3.2 隧道穿越 26-28 2.3.3 网页消重 28 2.3.4 索引容量 28-29 2.3.5 检索质量 29-30 2.4 本章小结 30-31 第3章 CTVPS网页分块算法及主题相关块提取 31-44 3.1 网页预处理 31-34 3.1.1 网页标准化 31-32 3.1.2 构建Dom树 32-34 3.2 网页分块 34-38 3.2.1 标签信息 34-35 3.2.2 视觉信息 35 3.2.3 链接信息 35-36 3.2.4 分块算法描述 36-38 3.3 主题相关内容块提取 38-43 3.3.1 主题描述 39 3.3.2 向量空间模型 39-41 3.3.3 主题相关块提取描述 41-43 3.4 本章小结 43-44 第4章 Search Smart系统的设计实现 44-57 4.1 系统设计 44-45 4.1.1 系统的设计思想 44 4.1.2 系统的架构 44-45 4.2 系统实现准备工作 45-53 4.2.1 开源项目选择 46-47 4.2.2 开源搜索引擎Nutch 47-53 4.3 Search Smart的实现 53-56 4.3.1 网页抓取模块 54 4.3.2 网页解析及网页分块模块 54 4.3.3 主题相关块提取模块 54-55 4.3.4 索引模块 55 4.3.5 检索模块 55-56 4.4 本章小结 56-57 第5章 Search Smart系统测试和结果分析 57-65 5.1 系统测试 57-61 5.1.1 测试环境 57 5.1.2 测试的准备工作 57-58 5.1.3 主题网站索引库内容的建立 58-59 5.1.4 使用Tomcat进行搜索测试 59-61 5.2 结果分析 61-64 5.3 Search Smart的可能改进 64 5.4 本章小结 64-65 第6章 总结与展望 65-67 6.1 本文总结 65-66 6.2 工作展望 66-67 参考文献 67-71 致谢 71-72 攻读学位期间参加的科研项目和成果 72
|
相似论文
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 主题搜索引擎关键技术研究,TP391.3
- 面向OA期刊检索结果页面的信息抽取方法研究,TP393.092
- 网络文本信息采集分析关键技术研究与实现,TP391.1
- 主题搜索引擎中相关技术的研究与实现,TP391.3
- 基于Nutch的图情博客搜索引擎的设计与实现,G250.73
- 基于语义的主题搜索引擎研究,TP391.3
- 主题搜索引擎索引技术的研究与实现,TP391.3
- 主题搜索引擎信息抽取技术研究,TP391.3
- 面向主题的搜索引擎的设计与实现,TP391.3
- 一种可扩展的面向中文主题搜索引擎的研究与设计,TP391.3
- 面向主题的双约束网页采集方法的研究和实现,TP393.092
- 基于Lucene的主题搜索引擎模板的设计与实现,TP391.3
- 基于个性化服务的汽车信息搜索引擎的研究,TP391.3
- 基于本体的主题搜索引擎技术研究,TP391.1
- 林业主题搜索引擎的设计与实现,TP391.3
- 分布式主题搜索引擎的研究与实现,TP391.3
- 主题爬虫搜索策略研究,TP391.3
- 基于时态信息的主题搜索引擎的研究与实现,TP391.3
- 基于Lucene的主题搜索引擎的研究与实现,TP391.3
- 主题搜索引擎的关键技术研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|