学位论文 > 优秀研究生学位论文题录展示

主题搜索与Web挖掘的研究及系统实现

作　者: 刘永信
导　师: 刘志镜
学　校: 西安电子科技大学
专　业: 计算机应用技术
关键词: Web挖掘主题搜索网络爬虫中文分词
分类号: TP391.3
类　型: 硕士论文
年　份: 2009年
下　载: 53次
引　用: 0次
阅　读: 论文下载

内容摘要

随着因特网的快速发展,海量的Web数据资源已经成为人们获取信息的重要来源。Web信息的日益增长使得人们很难快速准确的找到自己所需的信息,搜索引擎随之成为人们最普遍使用的信息检索的工具。但是,目前大多数的搜索引擎提供的服务还不能令用户满意。由于Web资源具有半结构性、离散性、实时性和异构性等特点,如何对Web资源进行挖掘分析,获取真正有价值的信息,并向用户提供便利的可定制的信息服务,已经成为一项重要的研究课题。本论文的研究内容是主题搜索与Web挖掘。在设计实现主题搜索系统BlueSpider的基础上,重点讨论了主题搜索以及Web挖掘的核心技术。本文的主要工作研究如下：主题网络爬虫：分析了现有的主题爬虫搜索算法,改进了以往的搜索策略,提出了一种基于非贪婪策略的搜索算法。网页内容提取：采用遍历HTML文档树获取相应网页内容的方法,从而能够快速、灵活、有效的获取网页中的信息。Web文档分析：根据Web文档所特有的半结构化及编码不统一等特点,提出了相应的分析方法,包括编码转换、分词、建立特征向量等,并根据Web文档的特点改进了特征权重的计算方法。另外,针对主题搜索所需的网页及URL主题相关度判定,给出了相应的方法,并提出了一种新的Web文档聚类算法以便对Web文档进行挖掘分析。在以上研究成果的基础上,本文描述了BlueSpider系统的设计实现细节。

全文目录

摘要  3-4
Abstract  4-8
第一章绪论  8-12
  1.1 课题背景  8-9
  1.2 研究现状  9
  1.3 本文的研究内容  9-11
  1.4 论文的组织结构  11-12
第二章 Web挖掘技术  12-18
  2.1 Web挖掘概述  12
  2.2 Web挖掘的特点  12-13
  2.3 Web挖掘的分类  13-14
  2.4 Web挖掘应用  14-16
    2.4.1 Web内容挖掘的应用  15
    2.4.2 Web结构挖掘的应用  15-16
    2.4.3 Web使用挖掘的应用  16
  2.5 小结  16-18
第三章主题搜索引擎技术  18-26
  3.1 主题搜索引擎技术综述  18-20
    3.1.1 产生背景  18-19
    3.1.2 主要技术和难点  19
    3.1.3 典型主题搜索引擎系统  19-20
  3.2 主题网络爬虫  20-22
    3.2.1 工作原理  20-21
    3.2.2 主要功能  21
    3.2.3 关键技术  21-22
  3.3 网络协议  22-24
    3.3.1 协议特点  22-23
    3.3.2 主要消息格式  23-24
  3.4 小结  24-26
第四章系统主要理论和算法  26-46
  4.1 主题网络爬虫搜索算法  26-31
    4.1.1 非贪婪链接选择策略  26-27
    4.1.2 网络搜索算法设计  27-28
    4.1.3 非贪婪遗传搜索算法  28-29
    4.1.4 性能分析  29-31
  4.2 HTML文档解析  31-34
    4.2.1 HTML的格式及特点  31-32
    4.2.2 HTML的树型结构  32-33
    4.2.3 HTML树结构解析  33-34
  4.3 Web文本分析  34-37
    4.3.1 中文编码转换  34
    4.3.2 中文分词技术  34-35
    4.3.3 权重计算  35-37
  4.4 主题相关度计算  37-41
    4.4.1 网页与主题的相关性判定  37-39
    4.4.2 URL与主题的相关性判定  39-41
  4.5 层次K-Means Web文档聚类算法  41-45
    4.5.1 算法分析  41-42
    4.5.2 算法参数说明  42-43
    4.5.3 算法步骤  43-44
    4.5.4 性能分析  44-45
  4.6 小结  45-46
第五章系统的设计与实现  46-74
  5.1 系统介绍  46-47
  5.2 线程管理模块  47-50
    5.2.1 线程工作流程  47-48
    5.2.2 线程同步  48-49
    5.2.3 编码实现  49-50
  5.3 种子URL选择模块  50-53
  5.4 URL调度模块  53-57
    5.4.1 URL的分类  53-54
    5.4.2 URL的管理  54-55
    5.4.3 编码实现  55-57
  5.5 网页下载模块  57-58
  5.6 网页解析模块  58-61
    5.6.1 内容提取  58-60
    5.6.2 文本分析  60-61
  5.7 数据存储模块  61-66
    5.7.1 数据类型  62
    5.7.2 数据存储设计  62-65
    5.7.3 编码实现  65-66
  5.8 检索模块  66-68
  5.9 系统运行实现  68-73
  5.10 小结  73-74
第六章总结与展望  74-76
  6.1 研究工作的总结  74
  6.2 趋势与展望  74-76
致谢  76-78
参考文献  78-82
在读期间发表的学术论文  82

主题搜索与Web挖掘的研究及系统实现

内容摘要

全文目录

相似论文