学位论文 > 优秀研究生学位论文题录展示

基于克隆选择算法的排序学习方法研究

作 者: 何强
导 师: 马军
学 校: 山东大学
专 业: 计算机系统结构
关键词: 克隆选择算法 信息检索 机器学习 排序学习 排序函数 LETOR
分类号: TP391.3
类 型: 硕士论文
年 份: 2012年
下 载: 18次
引 用: 0次
阅 读: 论文下载
 

内容摘要


信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索的核心问题之一是排序问题,即决定哪些信息是相关的、符合用户的习信息需求。不失一般性,本文主要关注文档排序的研究。排序问题的目的在于根据文档和查询之间的相关性,将相关的文档排在靠前的位置。随着互联网信息的急剧增长,排序问题逐渐成为信息检索领域的研究热点之一。在过去的研究中,学者们提出了布尔模型、向量模型、概率模型和语言模型等信息检索模型。这些传统模型将文档表示为关键词的集合,并且定义一个排序函数来计算文档和查询之间的相关性。通常这些模型属于非监督学习,因此排序函数的参数必须靠经验由人工设定,可以利用的信息少而且不灵活。近年来随着机器学习的发展,学者们提出了排序学习方法。排序学习的目的在于利用机器学习的方法从已标注的数据集中学习得到排序模型或排序函数。排序学习方法分为基于单文档的排序学习算法、基于文档对的排序学习算法和基于文档列的排序学习算法三种。排序学习的核心问题之一是选择合适的损失函数来寻找近乎最优的排序函数。尽管信息检索排序测评使用的评估函数是最理想的损失函数,但是通常这些函数不能直接用来优化,因为他们不满足传统机器学习中要求的平滑特性。通常在过去的工作中,我们使用评估函数的替代损失函数来解决这一问题。然而大多数情况下替代函数和评估函数本身之间并不等价。直观的,我们认为直接优化算法将会具有很大优势并且带来性能上的提升。综上,在本文中我们提出了一种新的方法RankCSA来直接优化评估函数。RankCSA利用克隆选择算法将信息检索中的各种特征结合起来,学习得到一个最有效的学习函数。在该算法中,RankCSA将同一查询对应的一系列文档作为抗原,将候选排序函数当作抗体,这一设定使得RankCSA具有基于文档列的排序学习算法的天然优势。同时,本文还提出基于信息检索排序问题的形态空间用于建立抗原与抗体的关系模型。此外,由于克隆选择算法的进化过程是离散的,因此可以将评估函数直接当作亲和力函数来优化。进化过程从抗体库中选择出最优的抗体作为最终的排序函数。为了验证RankCSA的有效性,我们在LETOR标准数据集上进行了实验,并以具有代表性的算法RankSVM、ListNet、AdaRank和RankBoost作为基准。实验结果表明RankCSA在P@1-10、MAP和NDCG@1-10指标上优于基准并且还有进一步优化的潜力。同时根据对比和分析我们证明了直接优化评估函数的优势。本文的主要贡献分为如下几部分:(1)本文提出了基于克隆选择算法的排序学习算法。结合信息检索排序问题本身的特点,我们定义了抗原和抗体的在克隆选择过程中的表示形式以及计算亲和力的形态空间模型。在该定义下RankCSA继承了基于文档列的排序学习算法的优点(2)本文直接使用IR评估函数MAP作为进化过程中的亲和力函数。使用评估函数本身而不是替代函数使得RankCSA在学习过程中具有很大的优势,并且结果也由于其他方法。(3)通过在LETOR标准数据集上进行实验,并与其他具有代表性的方法进行比较,我们验证了RankCSA算法的有效性和性能。权威的标准数据集和基准方法使得实验效果具有说服力。另外在学习过程中本文使用了各种有用的文档特征,进一步验证了RankCSA构造排序函数的能力。

全文目录


摘要  6-8
ABSTRACT  8-10
第一章 绪论  10-16
  1.1 研究背景及意义  10-11
  1.2 国内外研究现状  11-13
  1.3 本文的主要工作  13-14
  1.4 本文的组织  14-16
第二章 相关工作  16-24
  2.1 传统排序模型  16-18
  2.2 排序学习模型  18-23
  2.3 克隆选择算法  23
  2.4 本章小结  23-24
第三章 基于克隆选择算法的排序学习方法  24-33
  3.1 形式化定义  24-26
  3.2 形态空间模型和亲和力函数  26-28
  3.3 本文提出的排序学习算法:RankCSA  28-31
  3.4 本章小结  31-33
第四章 相关实验  33-47
  4.1 实验数据集  33-36
  4.2 评测方法  36-37
  4.3 实验设置和基准  37-39
  4.4 实验结果  39-45
  4.5 实验结果讨论  45-46
  4.6 本章小结  46-47
第五章 总结与展望  47-49
  5.1 主要工作总结  47
  5.2 未来工作展望  47-49
参考文献  49-56
致谢  56-57
攻读学位期间发表的学术论文目录  57-58
学位论文评阅及答辩情况表  58

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 面向海量邮件的检索系统研究与实现,TP393.098
  3. 英汉命名实体翻译方法研究,TP391.2
  4. 基于Web的未登录词翻译技术研究,TP391.2
  5. 基于社会网络分析的藏文web链接结构研究,TP393.09
  6. 生物医学缩略语消歧,R-5
  7. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  8. 英汉可比较语料库的构建与应用研究,TP391.1
  9. 基于计算机免疫的入侵检测系统研究,TP393.08
  10. 李群深层结构学习算法研究,TP181
  11. 外文数据库无障碍信息检索的策略研究,G354
  12. 基于因特网的动态规范词表的系统构建研究,G354
  13. 面向军事知识的自动问答系统的设计与实现,TP311.52
  14. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  15. 跨语言文本分类的研究,TP391.1
  16. P2P流量识别方法研究,TP393.06
  17. 排序学习损失函数的研究,TP181
  18. 互联网流量应用基准分类技术的研究,TP393.06
  19. 图像与文本数据间的异构迁移学习,TP391.41
  20. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  21. 基于蚁群聚类的SVM算法在入侵检测中的应用,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com