学位论文 > 优秀研究生学位论文题录展示
垂直搜索引擎主要技术研究
作 者: 方加沛
导 师: 黄战
学 校: 暨南大学
专 业: 计算机系统结构
关键词: 垂直搜索引擎 主题爬虫 单类别文档分类 网页净化 Web信息抽取
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 213次
引 用: 4次
阅 读: 论文下载
内容摘要
随着互联网上信息的爆炸式增长,通用的搜索引擎很难满足特定用户“专、精、深”的查询需求,在此情况下垂直搜索引擎应运而生。本文研究了垂直搜索引擎的几项主要技术:主题爬虫技术,网页净化技术和信息抽取技术。首先本文设计了一个基于单类别文档分类的主题爬虫,并对单类别文档分类算法中的原型算法进行改进,使用最小二乘法来求解原型向量的最优解,从而提高原型算法的分类精度;实验证明我们对原型算法的改进明显提高了分类的精确度。其次本文还提出了两种基于DIV_DOM模型的网页净化算法,分别是基于DIV_DOM模型的启发式网页净化算法和基于DIV树形模板的网页净化算法;并将这两种网页净化技术应用于主题爬虫中以评价它们对主题爬虫的性能的影响;实验证明后者比前者对网页具有更优的净化效果。最后在本文提出的基于DIV_DOM模型的网页净化算法的基础上,本文提出了另一种基于DOM的网页结构化信息抽取技术,并使用归纳学习算法来自动学习抽取规则;实验证明了该信息抽取算法的有效性。
|
全文目录
摘要 4-5 Abstract 5-6 目录 6-7 第1章 绪论 7-11 1.1 研究背景 7-8 1.2 垂直搜索引擎研究现状 8-9 1.3 研究内容与研究意义 9-10 1.4 论文组织结构 10-11 第2章 搜索引擎技术概述 11-23 2.1 搜索引擎分类 11-12 2.2 垂直搜索引擎主要技术概述 12-22 2.3 本章小结 22-23 第3章 基于单类别文档分类的主题爬虫 23-34 3.1 单类别文档分类技术 23-30 3.2 主题爬虫设计 30-33 3.3 本章小结 33-34 第4章 基于DIV DOM模型的网页净化技术 34-46 4.1 DOM模型 34-36 4.2 DIV DOM模型 36-39 4.3 基于DIV DOM模型的启发式网页净化方法 39-43 4.4 基于DIV树形模板的网页净化器 43-44 4.5 本章小结 44-46 第5章 基于DOM的Web信息抽取技术 46-54 5.1 两个假设 46-47 5.2 信息抽取过程简介 47-48 5.3 归纳学习 48-52 5.4 信息抽取 52-53 5.5 本章小结 53-54 第6章 实验与结果分析 54-62 6.1 实验条件 54-55 6.2 实验内容与实验目的 55 6.3 实验结果分析 55-61 6.4 本章小结 61-62 第7章 总结 62-64 参考文献 64-67 在校期间发表论文清单 67-68 致谢 68
|
相似论文
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 网页属性抽取的方法研究,TP391.1
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 主题搜索引擎中的爬取技术研究,TP391.3
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
- 基于Web的股评观点倾向性分析研究,TP391.1
- 面向领域的半结构化Web信息抽取技术,TP391.1
- 基于数据处理中心的企业竞争情报系统研究,F272
- 基于多特征的Web页面分块算法MFPS的研究与实现,TP393.092
- 搜索引擎中网页净化与消重技术研究,TP393.092
- 移动垂直搜索系统的研究,TP391.3
- 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
- 垂直搜索引擎的研究与实现,TP391.3
- 基于Web的竞争信息抽取研究,TP391.1
- 基于遗传算法的主题爬虫搜索策略研究,TP391.3
- 主题爬虫的研究与实现,TP391.3
- 垂直搜索引擎技术的研究及实现,TP391.3
- 基于用户行为的面向领域搜索引擎研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|