学位论文 > 优秀研究生学位论文题录展示
木材垂直搜索引擎设计与实现
作 者: 张行
导 师: 袁津生
学 校: 北京林业大学
专 业: 计算机应用技术
关键词: 垂直搜索 主题爬虫 木材主题词库
分类号: TP391.3
类 型: 硕士论文
年 份: 2012年
下 载: 77次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网上丰富的信息资源给人们的工作和生活带来巨大效益和便利的同时,也带来了巨大的信息冗余。我们在使用传统的通用搜索引擎时,经常会遇到这样的问题,为了搜索到一些专业的基础知识,不得不在众多的网站中,花费大量的时间去寻找,而垂直搜索引擎的出现为解决这类问题提供了很好的方法。本文对垂直搜索的主题爬虫设计和主题词库建立进行了研究,并基于这些技术设计实现了一个木材垂直搜索引擎。本论文首先介绍了搜索引擎的历史、现状、面临的问题,以及垂直搜索引擎的优势和现状;在了解搜索引擎结构、整体工作流程的基础上,分析了垂直搜索实现的关键技术,重点探讨了基于Shark算法的主题爬虫技术和主题词库建立。其次,基于木材行业,采用从专业书籍提取和领域专家建议的方式构建了一个木材主题词库,为后续的分词,主题相关性判断、建立索引提供了支持。接着,设计并实现了一个木材垂直搜索引擎,给出了系统的总体结构图。整个系统的实现采用了定制和扩展网络爬虫Heritrix来抓取木材主题相关的网页信息,利用Lucene这个开源的搜索引擎框架为系统提供快速、全面的全文索引和检索服务等一系列技术最后,对系统进行测试,将搜索结果与Google、百度的搜索结果进行了比较。总结了木材垂直搜索引擎的研究和开发经验,并展望了垂直搜索的应用前景。
|
全文目录
摘要 3-4 ABSTRACT 4-5 目录 5-7 1 引言 7-16 1.1 搜索引擎概述 7-11 1.1.1 搜索引擎发展史 7-8 1.1.2 搜索引擎的分类 8-9 1.1.3 搜索引擎现状 9-11 1.1.4 搜索引擎面临的问题 11 1.2 垂直搜索引擎概述 11-13 1.2.1 垂直搜索引擎的定义 11-12 1.2.2 垂直搜索引擎的优势 12 1.2.3 垂直搜索引擎研究现状 12-13 1.3 选题的目的和意义 13-15 1.4 论文组织结构 15-16 2 搜索引擎的结构及开源框架 16-24 2.1 搜索引擎结构 16-20 2.1.1 搜索器 17 2.1.2 索引器 17-18 2.1.3 检索器 18 2.1.4 用户接口 18-19 2.1.5 垂直搜索引擎结构 19-20 2.2 网络爬虫 20-22 2.2.1 网络爬虫概述 20-21 2.2.2 开源网络爬虫 21-22 2.3 开源搜索引擎框架Lucene 22-24 2.3.1 Lucene简介 22 2.3.2 Lucene结构 22-24 3 垂直搜索关键技术分析 24-37 3.1 主题爬虫技术 24-30 3.1.1 基于Web链接分析的算法 25 3.1.2 基于文本内容的算法 25-27 3.1.3 基于本体的算法 27 3.1.4 本文的算法 27-30 3.2 主题词库构建 30-32 3.2.1 基于关键词的主题表示方法 30 3.2.2 基于本体的主题表示方法 30-31 3.2.3 木材主题词库构建 31-32 3.3 预处理技术 32-33 3.4 分词技术 33-34 3.4.1 基于字符串匹配的分词 33-34 3.4.2 基于概率统计的分词 34 3.5 索引技术 34-37 3.5.1 索引建立 34-35 3.5.2 主题相关度排序 35-37 4 木材垂直搜索引擎的实现 37-54 4.1 系统结构和功能 37-39 4.1.1 系统结构 37-38 4.1.2 系统功能 38-39 4.2 木材主题信息采集实现 39-46 4.2.1 主题爬虫实现 39-45 4.2.2 主题词库的建立 45 4.2.3 预处理实现 45-46 4.3 索引的实现 46-49 4.3.1 索引建立准备 46-47 4.3.2 索引数据库实现 47-49 4.4 检索的实现 49-52 4.4.1 检索结构设计 49-50 4.4.2 检索实现 50-52 4.5 实验结果和分析 52-54 5 结论与展望 54-56 5.1 结论 54-55 5.2 展望 55-56 参考文献 56-58 个人简介 58-59 导师简介 59-60 致谢 60
|
相似论文
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 网络论坛舆情监控系统的研究及设计,G206
- 基于微博社交网络的舆情分析模型及实现,TP311.52
- 移动互联网环境下无线垂直搜索引擎的研究与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 基于互联网的人脸图像搜索,TP391.41
- 基于Lucene的电影票垂直搜索系统的设计与实现,TP391.3
- 主题爬虫穿越隧道算法研究与设计,TP391.3
- 基于增量学习的主题爬行策略研究,TP391.3
- 基于BP网络的高校主题爬虫的设计与实现,TP311.52
- 基于网页分块的主题爬虫方法研究,TP391.3
- 面向技术信息领域垂直搜索引擎的设计与实现,TP391.3
- 垂直搜索引擎关键技术研究及应用,TP391.3
- 垂直搜索引擎的研究与设计,TP391.3
- 基于支持向量机分类算法的主题爬虫的研究与实现,TP391.3
- 农业搜索引擎系统的关键技术研究,TP391.3
- 主题Web挖掘算法研究与应用,TP311.13
- 可定制的聚焦网络爬虫,TP391.3
- 基于Lucene的垂直搜索引擎关键技术的研究应用,TP391.3
- 基于领域本体的主题爬虫系统研究与实现,TP391.3
- 面向领域的Web文本采集与分类,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|