学位论文 > 优秀研究生学位论文题录展示
主题搜索与Web挖掘的研究及系统实现
作 者: 刘永信
导 师: 刘志镜
学 校: 西安电子科技大学
专 业: 计算机应用技术
关键词: Web挖掘 主题搜索 网络爬虫 中文分词
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 53次
引 用: 0次
阅 读: 论文下载
内容摘要
随着因特网的快速发展,海量的Web数据资源已经成为人们获取信息的重要来源。Web信息的日益增长使得人们很难快速准确的找到自己所需的信息,搜索引擎随之成为人们最普遍使用的信息检索的工具。但是,目前大多数的搜索引擎提供的服务还不能令用户满意。由于Web资源具有半结构性、离散性、实时性和异构性等特点,如何对Web资源进行挖掘分析,获取真正有价值的信息,并向用户提供便利的可定制的信息服务,已经成为一项重要的研究课题。本论文的研究内容是主题搜索与Web挖掘。在设计实现主题搜索系统BlueSpider的基础上,重点讨论了主题搜索以及Web挖掘的核心技术。本文的主要工作研究如下:主题网络爬虫:分析了现有的主题爬虫搜索算法,改进了以往的搜索策略,提出了一种基于非贪婪策略的搜索算法。网页内容提取:采用遍历HTML文档树获取相应网页内容的方法,从而能够快速、灵活、有效的获取网页中的信息。Web文档分析:根据Web文档所特有的半结构化及编码不统一等特点,提出了相应的分析方法,包括编码转换、分词、建立特征向量等,并根据Web文档的特点改进了特征权重的计算方法。另外,针对主题搜索所需的网页及URL主题相关度判定,给出了相应的方法,并提出了一种新的Web文档聚类算法以便对Web文档进行挖掘分析。在以上研究成果的基础上,本文描述了BlueSpider系统的设计实现细节。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-12 1.1 课题背景 8-9 1.2 研究现状 9 1.3 本文的研究内容 9-11 1.4 论文的组织结构 11-12 第二章 Web挖掘技术 12-18 2.1 Web挖掘概述 12 2.2 Web挖掘的特点 12-13 2.3 Web挖掘的分类 13-14 2.4 Web挖掘应用 14-16 2.4.1 Web内容挖掘的应用 15 2.4.2 Web结构挖掘的应用 15-16 2.4.3 Web使用挖掘的应用 16 2.5 小结 16-18 第三章 主题搜索引擎技术 18-26 3.1 主题搜索引擎技术综述 18-20 3.1.1 产生背景 18-19 3.1.2 主要技术和难点 19 3.1.3 典型主题搜索引擎系统 19-20 3.2 主题网络爬虫 20-22 3.2.1 工作原理 20-21 3.2.2 主要功能 21 3.2.3 关键技术 21-22 3.3 网络协议 22-24 3.3.1 协议特点 22-23 3.3.2 主要消息格式 23-24 3.4 小结 24-26 第四章 系统主要理论和算法 26-46 4.1 主题网络爬虫搜索算法 26-31 4.1.1 非贪婪链接选择策略 26-27 4.1.2 网络搜索算法设计 27-28 4.1.3 非贪婪遗传搜索算法 28-29 4.1.4 性能分析 29-31 4.2 HTML文档解析 31-34 4.2.1 HTML的格式及特点 31-32 4.2.2 HTML的树型结构 32-33 4.2.3 HTML树结构解析 33-34 4.3 Web文本分析 34-37 4.3.1 中文编码转换 34 4.3.2 中文分词技术 34-35 4.3.3 权重计算 35-37 4.4 主题相关度计算 37-41 4.4.1 网页与主题的相关性判定 37-39 4.4.2 URL与主题的相关性判定 39-41 4.5 层次K-Means Web文档聚类算法 41-45 4.5.1 算法分析 41-42 4.5.2 算法参数说明 42-43 4.5.3 算法步骤 43-44 4.5.4 性能分析 44-45 4.6 小结 45-46 第五章 系统的设计与实现 46-74 5.1 系统介绍 46-47 5.2 线程管理模块 47-50 5.2.1 线程工作流程 47-48 5.2.2 线程同步 48-49 5.2.3 编码实现 49-50 5.3 种子URL选择模块 50-53 5.4 URL调度模块 53-57 5.4.1 URL的分类 53-54 5.4.2 URL的管理 54-55 5.4.3 编码实现 55-57 5.5 网页下载模块 57-58 5.6 网页解析模块 58-61 5.6.1 内容提取 58-60 5.6.2 文本分析 60-61 5.7 数据存储模块 61-66 5.7.1 数据类型 62 5.7.2 数据存储设计 62-65 5.7.3 编码实现 65-66 5.8 检索模块 66-68 5.9 系统运行实现 68-73 5.10 小结 73-74 第六章 总结与展望 74-76 6.1 研究工作的总结 74 6.2 趋势与展望 74-76 致谢 76-78 参考文献 78-82 在读期间发表的学术论文 82
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
- 企业邮件监管系统的设计与实现,TP393.098
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
- 基于词典和概率统计的中文分词算法研究,TP391.1
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 互联网舆情信息挖掘与群体行为分析,F49
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 中文网页热门主题获取系统的研究与实现,TP393.092
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 中文文本分类方法研究,TP391.1
- 一种新的搜索引擎分词词典的研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|