学位论文 > 优秀研究生学位论文题录展示
面向汽车行业的主题爬虫研究与实现
作 者: 彭正非
导 师: 宋琪
学 校: 华中科技大学
专 业: 电路与系统
关键词: 主题爬虫 向量空间模型 网页正文分析 遗传算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的不断发展以及网络信息多元化的发展,传统搜索引擎已经不能满足人们对于特定行业领域的个性化检索需求,因此针对各行业主题信息的搜索引擎应运而生。而主题爬虫是主题搜索引擎的核心部分,为保证其返回查询信息的准确性和及时性,对主题爬虫展开研究具有重要意义。本文设计实现的汽车主题爬虫就是在这样的背景下产生的。本文首先阐述了主题爬虫的发展现状,然后对目前主流爬虫在主题基准模型、网页信息提取和网页搜索策略等关键模块的各种实现方案进行比较分析,提出了适合汽车主题爬虫建立的一套完整的设计方案,并对主题爬虫的各主要模块进行功能实现。最后对设计的主题爬虫展开性能测试,并进行相应的总结分析。具体地说,本文对汽车主题爬虫的研究工作主要体现在以下几点:1、分析主流主题爬虫实现流程,提出适合汽车主题爬虫的设计方案,并设计出汽车主题爬虫的总体结构框架。2、通过比较主题基准模型实现方案,采用向量空间模型的方法构建汽车主题关键词基准模型。3、通过比较网页分析提取方案,采用TagWindow标签窗口分块技术提取出网页正文和主题相关网页链接。4、通过比较网页搜索策略方案,采用基于遗传算法的网页搜索策略引导主题爬虫发现更多的主题相关资源。5、在对汽车主题爬虫各模块实现基础上进行性能测试,对实验数据进行对比分析,指出本文设计的汽车主题爬虫在检索汽车行业主题信息上的优势。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-12 1.1 课题背景 8-9 1.2 研究意义 9 1.3 研究现状 9-11 1.4 本文研究工作及组织 11-12 2 主题爬虫相关技术介绍 12-18 2.1 主题基准模型建立方法 12-13 2.2 网页正文提取研究 13-16 2.3 网页搜索策略研究 16-17 2.4 本章小结 17-18 3 主题爬虫总体设计方案 18-26 3.1 主题爬虫设计思路 18 3.2 主题爬虫功能分析 18-19 3.3 主题爬虫总体结构 19-21 3.4 主题爬虫总体框架 21-22 3.5 主题爬虫设计方案 22-25 3.6 本章小结 25-26 4 主题爬虫实现 26-40 4.1 爬虫初始化模块实现 26-28 4.2 主题基准模型模块实现 28-32 4.3 网页提取分析模块实现 32-37 4.4 爬虫控制模块实现 37-39 4.5 本章小结 39-40 5 实验结果及分析 40-47 5.1 实验环境 40-41 5.2 性能测试 41-46 5.3 本章小结 46-47 6 总结和展望 47-48 6.1 论文工作总结 47 6.2 后续工作展望 47-48 致谢 48-49 参考文献 49-52
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于遗传算法的柑橘图像分割,TP391.41
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于遗传—牛顿算法的公交优化调度,TP18
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于遗传算法的淠史杭灌区渠系配水优化编组模型的研究,S274
- 遗传算法在物流仓储优化中的应用研究,F259.2
- 基于遗传算法的矿山资源优化调度模型的研究,O224
- 磁流变阻尼器的力学特性及其在火炮反后坐中的应用研究,TB535.1
- 模糊预测函数控制改进算法的研究及应用,TP273
- 基于模拟的注塑模浇注系统及成型工艺参数优化研究,TQ320.662
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|