学位论文 > 优秀研究生学位论文题录展示

网页学习排序算法研究

作 者: 邓辉
导 师: 李红
学 校: 华中科技大学
专 业: 计算数学
关键词: 网页学习排序 SVM 遗传算法优化BP网络 Boosting算法 交叉验证
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 4次
引 用: 0次
阅 读: 论文下载
 

内容摘要


高端先进的信息技术,将我们带入了一个浩如烟海的数字时代。大量数据的涌入使得搜索引擎变得越来越重要,如何从海量数据中快速定位所需信息显得异常关键。搜索引擎包含多个组成部分,其中网页排序是搜索引擎设计的核心问题,它决定着搜索引擎排序结果,直接影响着搜索引擎的性能和用户体验。信息检索领域有许多网页排序算法,大致可归类为样本点级别方法模型、样本对级别方法模型以及样本列表级别方法模型。研究者们在这三类方法中运用多种算法做了很多贡献,然而对网页学习排序算法的研究仍处于白热化阶段。针对网页学习排序问题,本文首先SVM(Support Vector Machine)分别从样本点级别和样本对级别建立了基于SVM的网页学习排序模型。求解部分运用交叉检验的思想选择SVM模型中的参数,同时进行了核函数选择分析;在数据分析与处理时,选取了部分特征数据进行可视化以及数据分维分析,为消除数据量纲影响在预处理部分做了归一化处理。在样本对方法下的SVM网页排序模型求解中,本文采用随机排序配对方法得到训练样本。接着,运用启发式方法建立了遗传算法优化BP(BackPropagation)神经网络学习排序模型。该模型利用遗传算法的寻优能力,得到较好的BP网络初始权值和阈值,以提高BP网络的性能。为减轻BP网络训练复杂度,求解部分运用主成分分析法将训练数据进行了压缩,在保证较高的数据保真度时使压缩后的数据维度降至使BP网络结构合适的程度。最后,基于Boosting思想建立了基于Boosting算法的网页排序模型,旨在研究强学习排序器在弱学习机基础上的提升能力。本文在LETOR数据子集OHSUMED上进行实验。实验结果表明样本对级别模型的学习排序能力稍高于样本点级别;遗传算法优化BP网络权值与阈值能提高模型的排序精度,但时间开销很大;Boosting方法中的强学习排序器能取得较好效果。

全文目录


摘要  4-5
ABSTRACT  5-9
1 绪论  9-15
  1.1 研究背景与意义  9-10
  1.2 网页排序算法的发展与现状  10-14
  1.3 本文主要研究内容  14-15
2 搜索引擎原理  15-17
  2.1 工作原理  15
  2.2 基本结构  15-17
3 传统模型与评价准则  17-25
  3.1 传统排序模型  17-21
  3.2 评价准则  21-25
4 网页学习排序模型的建立与求解  25-38
  4.1 基于 SVM 的网页排序算法  25-29
  4.2 遗传算法优化 BP 神经网络网页学习排序算法  29-35
  4.3 基于Boosting算法的网页学习排序  35-38
5 实验结果分析及其比较  38-48
  5.1 SVM 网页排序学习算法实验结果分析  40-42
  5.2 遗传算法优化 BP 神经网络结果分析  42-45
  5.3 基于 Boosting 算法的网页学习排序分析  45-46
  5.4 三算法的比较分析  46-48
6 网页学习排序算法总结与展望  48-51
  6.1 网页学习排序算法总结  48-49
  6.2 未来发展方向  49-51
致谢  51-52
参考文献  52-56

相似论文

  1. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  2. 基于SVM分类算法的主题爬虫研究,TP391.3
  3. 中文缺省识别研究,TP391.1
  4. 基于计算机视觉的柑橘品质分级技术研究,TP391.41
  5. 基于战略采购的供应商选择研究,F426.31
  6. 海南雾的天气气候特征分析及预报方法研究,P457
  7. 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
  8. 基于支持向量机的视频目标检测方法研究,TP391.41
  9. 基于视觉的运动人体行为分析,TP391.41
  10. 医学图像检索中基于混合方法的相关反馈技术研究,TP391.3
  11. 贫困生数据的累积logistic回归分类,O212.1
  12. 视频图像中的行人检测算法研究与实现,TP391.41
  13. 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
  14. 湿法冶金浸出过程建模与优化,TF803.2
  15. 基于SVM分类的指纹图像质量评估算法研究,TP391.41
  16. 耦合“图—谱”特征的遥感影像自动分类方法研究,TP751
  17. WEB个性化信息采集与管理关键技术研究,TP393.09
  18. 基于粒子群优化算法和支持向量机的上市公司财务危机预警研究,F275
  19. 近红外光谱技术对于掺假原奶判别的可行性研究,TS252.7
  20. 基于净图的多模平滑度通用隐写分析及其GPU加速,TP391.41
  21. 快速智能入侵检测技术研究,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com