学位论文 > 优秀研究生学位论文题录展示

主题搜索与Web挖掘的研究及系统实现

作 者: 刘永信
导 师: 刘志镜
学 校: 西安电子科技大学
专 业: 计算机应用技术
关键词: Web挖掘 主题搜索 网络爬虫 中文分词
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 53次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着因特网的快速发展,海量的Web数据资源已经成为人们获取信息的重要来源。Web信息的日益增长使得人们很难快速准确的找到自己所需的信息,搜索引擎随之成为人们最普遍使用的信息检索的工具。但是,目前大多数的搜索引擎提供的服务还不能令用户满意。由于Web资源具有半结构性、离散性、实时性和异构性等特点,如何对Web资源进行挖掘分析,获取真正有价值的信息,并向用户提供便利的可定制的信息服务,已经成为一项重要的研究课题。本论文的研究内容是主题搜索Web挖掘。在设计实现主题搜索系统BlueSpider的基础上,重点讨论了主题搜索以及Web挖掘的核心技术。本文的主要工作研究如下:主题网络爬虫:分析了现有的主题爬虫搜索算法,改进了以往的搜索策略,提出了一种基于非贪婪策略的搜索算法。网页内容提取:采用遍历HTML文档树获取相应网页内容的方法,从而能够快速、灵活、有效的获取网页中的信息。Web文档分析:根据Web文档所特有的半结构化及编码不统一等特点,提出了相应的分析方法,包括编码转换、分词、建立特征向量等,并根据Web文档的特点改进了特征权重的计算方法。另外,针对主题搜索所需的网页及URL主题相关度判定,给出了相应的方法,并提出了一种新的Web文档聚类算法以便对Web文档进行挖掘分析。在以上研究成果的基础上,本文描述了BlueSpider系统的设计实现细节。

全文目录


摘要  3-4
Abstract  4-8
第一章 绪论  8-12
  1.1 课题背景  8-9
  1.2 研究现状  9
  1.3 本文的研究内容  9-11
  1.4 论文的组织结构  11-12
第二章 Web挖掘技术  12-18
  2.1 Web挖掘概述  12
  2.2 Web挖掘的特点  12-13
  2.3 Web挖掘的分类  13-14
  2.4 Web挖掘应用  14-16
    2.4.1 Web内容挖掘的应用  15
    2.4.2 Web结构挖掘的应用  15-16
    2.4.3 Web使用挖掘的应用  16
  2.5 小结  16-18
第三章 主题搜索引擎技术  18-26
  3.1 主题搜索引擎技术综述  18-20
    3.1.1 产生背景  18-19
    3.1.2 主要技术和难点  19
    3.1.3 典型主题搜索引擎系统  19-20
  3.2 主题网络爬虫  20-22
    3.2.1 工作原理  20-21
    3.2.2 主要功能  21
    3.2.3 关键技术  21-22
  3.3 网络协议  22-24
    3.3.1 协议特点  22-23
    3.3.2 主要消息格式  23-24
  3.4 小结  24-26
第四章 系统主要理论和算法  26-46
  4.1 主题网络爬虫搜索算法  26-31
    4.1.1 非贪婪链接选择策略  26-27
    4.1.2 网络搜索算法设计  27-28
    4.1.3 非贪婪遗传搜索算法  28-29
    4.1.4 性能分析  29-31
  4.2 HTML文档解析  31-34
    4.2.1 HTML的格式及特点  31-32
    4.2.2 HTML的树型结构  32-33
    4.2.3 HTML树结构解析  33-34
  4.3 Web文本分析  34-37
    4.3.1 中文编码转换  34
    4.3.2 中文分词技术  34-35
    4.3.3 权重计算  35-37
  4.4 主题相关度计算  37-41
    4.4.1 网页与主题的相关性判定  37-39
    4.4.2 URL与主题的相关性判定  39-41
  4.5 层次K-Means Web文档聚类算法  41-45
    4.5.1 算法分析  41-42
    4.5.2 算法参数说明  42-43
    4.5.3 算法步骤  43-44
    4.5.4 性能分析  44-45
  4.6 小结  45-46
第五章 系统的设计与实现  46-74
  5.1 系统介绍  46-47
  5.2 线程管理模块  47-50
    5.2.1 线程工作流程  47-48
    5.2.2 线程同步  48-49
    5.2.3 编码实现  49-50
  5.3 种子URL选择模块  50-53
  5.4 URL调度模块  53-57
    5.4.1 URL的分类  53-54
    5.4.2 URL的管理  54-55
    5.4.3 编码实现  55-57
  5.5 网页下载模块  57-58
  5.6 网页解析模块  58-61
    5.6.1 内容提取  58-60
    5.6.2 文本分析  60-61
  5.7 数据存储模块  61-66
    5.7.1 数据类型  62
    5.7.2 数据存储设计  62-65
    5.7.3 编码实现  65-66
  5.8 检索模块  66-68
  5.9 系统运行实现  68-73
  5.10 小结  73-74
第六章 总结与展望  74-76
  6.1 研究工作的总结  74
  6.2 趋势与展望  74-76
致谢  76-78
参考文献  78-82
在读期间发表的学术论文  82

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  3. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  4. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  5. 主观题自动评分技术研究,TP391.1
  6. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  7. 中文XML压缩技术研究,TP311.11
  8. Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
  9. 企业邮件监管系统的设计与实现,TP393.098
  10. 网络舆情分析关键技术研究与实现,TP393.09
  11. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  12. 基于过滤技术的投诉信息智能分析与实现,TP391.1
  13. 基于词典和概率统计的中文分词算法研究,TP391.1
  14. 网络舆情数据获取与话题分析技术研究,TP393.09
  15. 互联网舆情信息挖掘与群体行为分析,F49
  16. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  17. 中文网页热门主题获取系统的研究与实现,TP393.092
  18. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  19. SOM算法的改进及其在中文文本聚类的应用,TP391.1
  20. 中文文本分类方法研究,TP391.1
  21. 一种新的搜索引擎分词词典的研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com