学位论文 > 优秀研究生学位论文题录展示
基于Lucene的网络文学垂直搜索引擎的研究与实现
作 者: 黄荣游
导 师: 赵新建
学 校: 浙江工业大学
专 业: 计算机应用技术
关键词: 网络文学 垂直搜索引擎 网络爬虫 Lucene DirectHit
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 71次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网信息爆炸性增长,通用搜索引擎已经越来越难以满足人们日益增长的个性化需求。在面对专业搜索请求时,通用搜索引擎往往表现的力不从心。为了实现对特定行业的专、准、精的搜索,垂直搜索引擎诞生了。首先,本文介绍了垂直搜索引擎的工作原理及相关技术。在了解Heritrix工作原理的基础上,运用基于链接标记数据的主题预测算法将Heritrix改造成主题网络蜘蛛,实现只抓取特定链接的目的;通过将Heritrix改造成多线程以增加系统的爬行效率。根据网络文学页面由动态模板生成的特点,实现对采集到的页面自动解析。其次,根据网络文学的现状确定系统的基本功能和性能要求,设计出系统总体框架图,并详细阐述了系统各个模块的功能、流程图;为了帮助用户更好的理解系统,特别绘制了系统功能交互图和用例图。在了解Lucene总体架构和索引技术的基础上,设计出系统的检索模块和索引模块。通过引入DirectHit算法、基于内容的页面相关度算法和作品重要性加分,对Lucene的原排序算法进行改进,提高系统的查准率。另外,在检索阶段,引入缓存以加快系统的检索速度。最后,对系统的查全率、查准率、检索时间进行测试,实验结果表明本系统是现实可行,具有实际应用价值。
|
全文目录
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 网络文学及其版权保护模式研究,D923.41
- 垂直搜索引擎关键技术的研究与实现,TP311.52
- 基于WebGIS和MMS的移动搜索服务系统开发,TP311.52
- 消防领域搜索引擎系统的设计与实现,TP391.3
- LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 基于分布式的垂直搜索引擎的研究与实现,TP391.3
- 基于Lucene的知识库设计与实现,TP311.52
- 基于Lucene的电影票垂直搜索系统的设计与实现,TP391.3
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于Lucene.Net的全文检索研究与应用,TP391.3
- 公众论坛信息实时检索的研究与实现,TP391.3
- 网络舆情信息采集系统的设计与实现,TP393.09
- 基于内容的图像检索系统的设计与实现,TP311.52
- 基于Web搜索引擎系统的设计与实现,TP391.3
- 基于语义Web的信息检索技术研究,TP391.3
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 基于购物搜索引擎的网页解析模块的设计与实现,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|