学位论文 > 优秀研究生学位论文题录展示

全文检索系统研究

作 者: 卢志翔
导 师: 霍林
学 校: 广西大学
专 业: 计算机技术
关键词: 信息检索 检索系统 结果排序 兴趣挖掘
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 33次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术的发展,特别是计算机网络技术的发展和因特网应用普及,信息检索系统已成为人们获取资源和信息交流的主要途径。检索系统作为搜寻网络信息的最主要的工具,已经渗透到人们生活的各个领域。然而用户的一个查询请求往往会检索出庞大的结果集,可用户所需要的信息往往却只是其中一小部分。因此,提供有效的工具和方法来帮助用户管理检索系统检索出来的相关文档,并进行合理的排序,以满足用户个性化的信息需求,是开发检索系统面临的新挑战。检索结果排序算法研究和个性化服务技术研究已经成为当前信息检索领域的研究热点之一。所谓个性化服务是指针对不同用户的需求和不同时间的需求采取不同服务策略,其关键在于兴趣挖掘和用户兴趣模型的建立。本文围绕着全文检索系统结果个性化排序的关键问题开展如下研究。通用检索系统中没有考虑检索词条在文档中的位置关系和文档的长度影响,对此,本文提出一种改进的加权WTFIDF算法。该算法考虑了多个因素:(1)同义词对文档相关性有着很大的影响,该算法对用户的检索词条作同义词和相关语义扩展。(2)检索词条在文档的位置关系影响词条的权重计算。(3)检索词条在文档的比重同样影响词条的权重计算。基于词频的TFIDF算法忽略了文档与用户兴趣的相关性,对此本文分析了用户浏览过的文档内容与兴趣的相关因素,提出了一种用户兴趣模型。通过分析文档结构、用户浏览行为信息及用户对文档的评价信息,设计了一种用户兴趣挖掘策略,来创建和实时更新用户兴趣模型。在用户兴趣模型基础上,提出了一种用户兴趣度计算方法,根据用户的兴趣爱好对检索结果文档进行重排,提高检索系统的查准率,并能随着不同用户的兴趣变化优化检索结果,通过实验证明了算法的有效性。最后,对上述个性化重排方法做了较为全面的模拟试验。试验结果表明,本文提出的个性化用户兴趣模型能较准确地描述用户兴趣所在和用户兴趣变化,并能够把用户兴趣感兴趣的相关主题排在结果文档集的前面,在检索系统的个性化研究中具有实际应用价值。

全文目录


摘要  4-6
ABSTRACT  6-12
第一章 绪论  12-16
  1.1 研究背景  12-13
  1.2 国内外检索结果排序算法的研究现状  13-14
  1.3 研究检索结果排序算法的意义  14-15
  1.4 本文的研究内容  15
  1.5 本文的组织与结构  15-16
第二章 检索结果排序算法相关技术研究  16-26
  2.1 研究背景  16
  2.2 常用检索结果排序算法  16-21
    2.2.1 词频统计和位置加权排序算法  16-18
    2.2.2 Direct Hit算法  18
    2.2.3 PageRank算法及相关算法  18-20
    2.2.4 Hits算法  20-21
  2.3 常用全文检索相关度计算模型  21-23
    2.3.1 布尔逻辑模型  21
    2.3.2 概率论模型  21-22
    2.3.3 向量检索模型  22-23
    2.3.4 其它相关模型  23
  2.4 常用用户兴趣建模方法  23-24
  2.5 常用用户兴趣表示方法  24-25
  2.6 本章小结  25-26
第三章 TFIDF算法改进及预排序的实现  26-35
  3.1 TFIDF算法概述  26-28
  3.2 改进TFIDF算法的原因  28-29
  3.3 WTFIDF  29-32
  3.4 预排序的实现  32-33
  3.5 实验设计及结果分析  33-34
    3.5.1 实验设计  33
    3.5.2 实验结果  33-34
  3.6 本章小结  34-35
第四章 基于用户兴趣挖掘的个性化模型设计  35-53
  4.1 模型概述  35-36
  4.2 用户兴趣挖掘  36-39
    4.2.1 日志挖掘  36-37
    4.2.2 个体显式兴趣挖掘  37-38
    4.2.3 个体隐式兴趣挖掘  38-39
  4.3 用户兴趣存储  39-44
    4.3.1 兴趣分类模型  40-43
    4.3.2 短期兴趣与长期兴趣表示  43-44
  4.4 模型更新机制  44-47
  4.5 用户兴趣度计算  47
  4.6 个性化重排算法实现  47-49
  4.7 实验设计及结果分析  49-52
    4.7.1 实验设计  49-50
    4.7.2 实验结果  50-52
  4.8 本章小结  52-53
第五章 系统设计及实现  53-60
  5.1 系统结构设计  53-54
  5.2 核心模块设计  54-56
    5.2.1 用户兴趣采集模块  54-55
    5.2.2 兴趣分类模块  55
    5.2.3 兴趣类选择模块  55-56
    5.2.4 重排模块  56
  5.3 系统测试  56-59
    5.3.1 实验设计  56-57
    5.3.2 实验结果  57-59
  5.4 本章小结  59-60
第六章 总结与展望  60-62
  6.1 工作总结  60
  6.2 工作展望  60-62
参考文献  62-68
致谢  68-69
攻读学位期间发表论文情况  69

相似论文

  1. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  2. 生物医学领域检索系统查询扩展技术研究,TP391.3
  3. 面向海量邮件的检索系统研究与实现,TP393.098
  4. 分面元数据在网站检索系统中的应用研究,G354.2
  5. 基于社会网络分析的藏文web链接结构研究,TP393.09
  6. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  7. 英汉可比较语料库的构建与应用研究,TP391.1
  8. 基于词语权重的中文文本分类算法的研究,TP391.1
  9. 基于协同过滤的用户兴趣发现,TP391.3
  10. 多模式图像检索方法研究,TP391.41
  11. 基于点击的用户聚类的研究,TP311.13
  12. 基于个性化推荐的图像浏览与检索相关方法研究,TP391.41
  13. 基于语义Web的信息检索技术研究,TP391.3
  14. 基于OWL的地名本体构建与检索机制研究,P208
  15. 面向地名本体服务的空间信息检索研究,P208
  16. 基于本体的语义查询扩展研究,TP391.3
  17. 基于本体的个性化信息系统的应用研究,F49
  18. 城市百科知识库自动构建系统,TP391.3
  19. 基于柔性上下文偏好的数据库查询技术研究,TP311.13
  20. Web数据库柔性查询结果自动排序方法研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com