学位论文 > 优秀研究生学位论文题录展示

基于Lucene的网络文学垂直搜索引擎的研究与实现

作 者: 黄荣游
导 师: 赵新建
学 校: 浙江工业大学
专 业: 计算机应用技术
关键词: 网络文学 垂直搜索引擎 网络爬虫 Lucene DirectHit
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 71次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网信息爆炸性增长,通用搜索引擎已经越来越难以满足人们日益增长的个性化需求。在面对专业搜索请求时,通用搜索引擎往往表现的力不从心。为了实现对特定行业的专、准、精的搜索,垂直搜索引擎诞生了。首先,本文介绍了垂直搜索引擎的工作原理及相关技术。在了解Heritrix工作原理的基础上,运用基于链接标记数据的主题预测算法将Heritrix改造成主题网络蜘蛛,实现只抓取特定链接的目的;通过将Heritrix改造成多线程以增加系统的爬行效率。根据网络文学页面由动态模板生成的特点,实现对采集到的页面自动解析。其次,根据网络文学的现状确定系统的基本功能和性能要求,设计出系统总体框架图,并详细阐述了系统各个模块的功能、流程图;为了帮助用户更好的理解系统,特别绘制了系统功能交互图和用例图。在了解Lucene总体架构和索引技术的基础上,设计出系统的检索模块和索引模块。通过引入DirectHit算法、基于内容的页面相关度算法和作品重要性加分,对Lucene的原排序算法进行改进,提高系统的查准率。另外,在检索阶段,引入缓存以加快系统的检索速度。最后,对系统的查全率、查准率、检索时间进行测试,实验结果表明本系统是现实可行,具有实际应用价值。

全文目录


相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 网络文学及其版权保护模式研究,D923.41
  3. 垂直搜索引擎关键技术的研究与实现,TP311.52
  4. 基于WebGIS和MMS的移动搜索服务系统开发,TP311.52
  5. 消防领域搜索引擎系统的设计与实现,TP391.3
  6. LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
  7. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  8. 基于分布式的垂直搜索引擎的研究与实现,TP391.3
  9. 基于Lucene的知识库设计与实现,TP311.52
  10. 基于Lucene的电影票垂直搜索系统的设计与实现,TP391.3
  11. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  12. 基于Lucene.Net的全文检索研究与应用,TP391.3
  13. 公众论坛信息实时检索的研究与实现,TP391.3
  14. 网络舆情信息采集系统的设计与实现,TP393.09
  15. 基于内容的图像检索系统的设计与实现,TP311.52
  16. 基于Web搜索引擎系统的设计与实现,TP391.3
  17. 基于语义Web的信息检索技术研究,TP391.3
  18. 网络舆情数据获取与话题分析技术研究,TP393.09
  19. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  20. 基于购物搜索引擎的网页解析模块的设计与实现,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com