学位论文 > 优秀研究生学位论文题录展示

主题搜索引擎的关键技术研究与实现

作 者: 孙轩
导 师: 周彩兰
学 校: 武汉理工大学
专 业: 计算机应用技术
关键词: 主题搜索引擎 网络爬虫 URL搜索策略 主题孤岛 贝叶斯分类器
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 185次
引 用: 6次
阅 读: 论文下载
 

内容摘要


随着网络上信息量的极速增长,Web上出现了大量的重复信息和垃圾信息,用户感觉很难快速找到自己真正需要的信息,通用搜索引擎面临着信息采集规模、更新速度和专业化需求等多方面的挑战。面对这些挑战,针对特定主题和个性化信息检索的主题搜索引擎(vertical search engine or topical search engine)应运而生。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点,本论文的研究就是以这一热点和难点技术而展开的。本文首先对通用搜索引擎的组成部分作了简单介绍,并细述了其工作原理。进而对主题搜索引擎的一些关键技术如主题网络爬虫、信息抽取、文本分类、网页排序等进行了详细的阐述。在探讨几种文本分类算法中,本文对贝叶斯分类算法进行了改进,鉴于网页中的一些HTML标记中的关键词能更好的反映一个页面的主题,在改进的算法中对这些词赋予了较大的权重系数,并通过实验与数据分析本文改进的贝叶斯分类算法在分类准确度上有了较大的提高。本文重点讨论了主题网络爬虫的搜索策略,分别论述了基于内容和基于链接的搜索策略。考虑到web页面上存在的主题孤岛问题,提出了一种新的基于内容和链接分析的URL搜索算法,可以使网络蜘蛛穿越隧道爬取更多的相关主题页面来解决主题孤岛问题,提高搜索引擎的主题资源覆盖率,同时可以较好的避免主题漂移现象。最后对本文提出的URL搜索算法进行了实验分析,以ODP分类目录索引作为实验环境,对广度优先搜索策略、最好优先搜索策略和本文提出的基于内容和链接分析的URL搜索策略进行了测评比较,结果表明本文提出的URL搜索算法在目标召回率标准方面得到了提高,使主题搜索引擎在保证查准率的基础上返回更多主题相关的页面。

全文目录


摘要  4-5
ABSTRACT  5-10
第1章 绪论  10-19
  1.1 选题背景  10-11
  1.2 通用搜索引擎概述  11-15
    1.2.1 搜索引擎的分类  11-13
    1.2.2 搜索引擎的结构及工作原理  13-15
  1.3 主题搜索引擎技术  15-17
    1.3.1 主题搜索引擎的定义  15
    1.3.2 主题搜索引擎的研究现状  15-17
    1.3.3 主题搜索引擎的优势  17
  1.4 论文研究内容及组织结构  17-19
第2章 主题搜索引擎的理论基础及关键技术  19-47
  2.1 主题网络爬虫  19-25
    2.1.1 主题爬虫的工作原理  19-20
    2.1.2 主题爬虫的结构  20-22
    2.1.3 主题爬虫与普通爬虫的区别  22-23
    2.1.4 网络爬虫的搜索策略概述  23-25
  2.2 信息抽取技术  25-31
    2.2.1 HTML基本语法分析  26-28
    2.2.2 网页预处理  28-30
    2.2.3 网页中信息资源的提取  30-31
  2.3 文本分类技术  31-40
    2.3.1 文本表示模型  31-33
    2.3.2 特征项提取  33-34
    2.3.3 分类算法  34-36
    2.3.4 改进的Naive Bayes分类算法  36
    2.3.5 实验与数据分析  36-40
  2.4 网页排序算法  40-46
    2.4.1 PageRank算法  40-42
    2.4.2 HITS算法  42-44
    2.4.3 PageRank算法和HITS算法的比较  44-46
  2.5 本章小结  46-47
第3章 主题网络爬虫的搜索策略研究与设计  47-59
  3.1 主题页面的分布特征  47-50
    3.1.1 Hub/Authority特性  47-48
    3.1.2 主题关联特性  48
    3.1.3 主题聚集特性  48-49
    3.1.4 主题孤岛特性  49-50
  3.2 主题相关度预测  50-53
    3.2.1 基于链接标记数据的预测  50-52
    3.2.2 基于链接结构分析的预测  52-53
  3.3 基于内容和链接分析的URL搜索策略  53-58
    3.3.1 基于内容和链接分析的主题相关度预测  53-55
    3.3.2 算法设计与实现  55-58
  3.4 本章小结  58-59
第4章 实验的建立与结果  59-64
  4.1 性能评价指标  59-60
  4.2 算法的实验比较与分析  60-62
    4.2.1 ODP  60-62
    4.2.2 实验结果分析  62
  4.3 本章小结  62-64
第5章 总结与展望  64-66
  5.1 工作总结  64-65
  5.2 工作展望  65-66
参考文献  66-70
致谢  70-71
附录:攻读硕士学位期间公开发表的论文  71

相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 基于改进的非参数回归交通流量预测方法,F570
  3. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  4. 视频数据中人体动作的分类研究,TP391.41
  5. 主题搜索引擎中的爬取技术研究,TP391.3
  6. 贝叶斯分类算法的研究与应用,TP18
  7. 网络舆情分析关键技术研究与实现,TP393.09
  8. 面向工程监理的多Agent信息智能检索机制研究,TP391.3
  9. 半监督学习中协同训练与多视图方法的比较及改进,TP18
  10. 网络舆情数据获取与话题分析技术研究,TP393.09
  11. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  12. 基于增量改进贝叶斯领域问句分类研究,TP391.3
  13. 面向企业竞争情报的主题搜索研究与实现,TP391.3
  14. 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
  15. 个性化搜索引擎的研究与设计,TP391.3
  16. 搜索引擎中网络爬虫技术研究,TP391.3
  17. 主题搜索与Web挖掘的研究及系统实现,TP391.3
  18. 基于网络评论的文本倾向性分类技术的研究与实现,TP311.52
  19. 主题搜索引擎中相关技术的研究与实现,TP391.3
  20. 基于数据挖掘技术的证券投资研究,F224
  21. 基于Nutch的图情博客搜索引擎的设计与实现,G250.73

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com