学位论文 > 优秀研究生学位论文题录展示

搜索引擎个性化检索及用户推荐功能的设计与实现

作 者: 徐小乐
导 师: 何友全
学 校: 重庆交通大学
专 业: 计算机应用技术
关键词: 搜索引擎 用户推荐 中文分词 Lucene Ajax
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 58次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网技术的飞速发展,网上信息量剧增,人们从海量信息中挖掘出可用信息日益困难。目前人们采用搜索引擎的方式在互联网上检索信息,传统搜索引擎,如国外的Google,yahoo,国内的百度,天网等,都迅速发展起来。截止2010年6月,中国网民数量增长到4亿,网民中使用搜索引擎的比率大于百分之七十,国外的搜索引擎使用比率更高,因此搜索引擎的市场前景看好。然而通用搜索引擎的结果面向大多数用户,当检索词相同时,返回给用户的结果一致。事实上,随着年龄,性别,学历,专业等的不同,不同用户对同一检索词的兴趣点不一致。个性化搜索引擎试图通过分析文档结构、用户浏览行为信息及用户对文档的评价信息,建立用户的兴趣模型,指导搜索引擎的查询结果以及结果排序,力图满足每个用户的需求。本文主要实现了搜索引擎中的三个功能:1、中文分词技术。2、实现了用户推荐功能。3、实现了个性化检索,对相同查询词根据用户兴趣不同返回更适合用户兴趣点的结果。中文分词是自然语言处理的范畴,是搜索引擎查询和建立索引的基础。目前中文分词算法比较常用的有基于词典的分词算法,基于统计的分词算法和基于规则的分词算法。基于词典的分词算法设计思想简单,为大多数程序员所使用。但是中文分词存在两大难点问题,歧义的消除和未登录词的识别。经过众多学者的努力,目前仍未完美的解决此问题。本文的分词算法,对原有分词算法做了部分改进,提高了分词的精度。在用户使用搜索引擎检索的过程中,查询词是用户与搜索引擎交互的唯一手段。查询词的准确与否直接关系到用户检索结果的精度。然而大多数用户不能准确描述自己所遇到的问题,因此会影响到返回的结果。用户推荐的出现很好的解决了这一问题,当用户输入查询限制时,先通过中文分词技术把字符串切割成词语,然后根据关联规则给用户推荐返回更多具有语义相关性的查询结果,供用户选择或者参考。个性化检索是指通过挖掘用户兴趣信息,建立合理的模型来表示、管理用户兴趣,并通过不断更新与维护,逐步优化模型,使其能准确反映用户的兴趣需求,为后续搜索工作提供个性化的分析依据。其包括用户所搜索的关键词,对搜索结果的点击,各个网站浏览行为,书签情况等。搜索引擎掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。论文创新点在于:1)设计了自己的中文分词核心词典,其包括常用汉语词语119803条,计算机术语1015条。新词词典是通过计算机程序的主动学习,不断加入未登录词,新词。新词词典用于存放切分词语时出现的未登录词和歧义词,在分词结束时对主要词典进行扩充。本文实现的中文分词提高了现有分词算法的精度。2)在基于通用搜索引擎实现技术的基础上,加入用户兴趣模型,实现了个性化检索技术。用户兴趣模型的建立,是通过web日志挖掘技术,挖掘用户的历史浏览记录和浏览行为,基于群体环境,找到相似用户,利用相似用户的检索结果或者相似用户的兴趣,来扩展所处理信息的广度和精度。

全文目录


摘要  3-5
ABSTRACT  5-9
第一章 绪论  9-16
  1.1 研究的背景与意义  9-10
  1.2 国内外研究现状  10-11
  1.3 搜索引擎的关键技术  11-13
  1.4 本文研究的主要内容及意义  13-15
  1.5 全文组织结构  15
  1.6 本章小结  15-16
第二章 中文分词技术  16-27
  2.1 中文分词概述  16
  2.2 中文分词的难点  16-18
  2.3 三种传统分词方法  18-20
    2.3.1 基于词典的分词算法  18-19
    2.3.2 基于统计的分词算法  19
    2.3.3 基于规则的分词算法  19-20
  2.4 词典的建立  20
  2.5 停用词过滤  20-22
  2.6 分词算法的设计  22-24
    2.6.1 常用双向最大匹配法  22
    2.6.2 优化的双向最大匹配算法  22-23
    2.6.3 工作流程图  23-24
  2.7 歧义消除  24
    2.7.1 歧义的产生  24
    2.7.2 歧义消除  24
  2.8 实验结果  24-25
  2.9 实验分析  25-26
  2.10 本章小结  26-27
第三章 用户推荐  27-39
  3.1 用户推荐概述  27-28
  3.2 Ajax 技术  28-33
    3.2.1 Ajax 原理  28-29
    3.2.2 Ajax 核心技术  29-32
    3.2.3 Ajax 的优势  32-33
  3.3 用户推荐功能  33-36
    3.3.1 设计思想  33
    3.3.2 关键词智能扩展的实现  33-35
    3.3.3 工作流程图  35-36
  3.4 本部分结果及分析  36-37
  3.5 本章小结  37-39
第四章 个性化检索技术  39-53
  4.1 个性化检索概述  39-40
  4.2 Lucene 技术  40-42
  4.3 个性化检索的几个前提假设  42-43
  4.4 若干关键技术  43-47
    4.4.1 用户接口  43-44
    4.4.2 网页搜集  44
    4.4.3 索引  44-45
    4.4.4 检索  45-46
    4.4.5 web 挖掘技术  46-47
  4.5 用户兴趣模型  47-52
    4.5.1 用户建模技术  48
    4.5.2 用户模型的表示  48-49
    4.5.3 用户兴趣模型的更新  49-52
    4.5.4 兴趣模型的存储  52
  4.6 本章小结  52-53
第五章 系统的设计与实现  53-68
  5.1 系统的开发环境  53
  5.2 索引的建立  53-55
  5.3 用户界面  55-56
  5.4 用户推荐技术  56-57
  5.5 中文分词  57
  5.6 用户注册  57-60
  5.7 检索  60-61
  5.8 个性化搜索引擎  61-63
  5.9 实验分析  63-67
  5.10 本章小结  67-68
第六章 总结与展望  68-71
  6.1 总结  68-70
  6.2 存在的问题及展望  70-71
致谢  71-72
参考文献  72-76
在学期间发表的论著及取得的科研成果  76

相似论文

  1. 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
  2. 网络搜索引擎的相关技术研究,G354
  3. 基于嵌入式Web服务器的监控系统研究,TP393.05
  4. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  5. 基于语义网络的智能搜索引擎研究,TP391.3
  6. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  7. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  8. 数字化查账系统研究,TP311.52
  9. 社区WebGIS原型系统设计与实现,P208
  10. 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
  11. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  12. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  13. 基于SNS的网络协作学习平台设计与实现,TP311.52
  14. 高校学生工作管理系统的分析与设计,TP311.52
  15. Web管理信息系统性能优化研究,TP311.52
  16. 宜春学院学生就业管理系统的设计与实现,TP311.52
  17. 主观题自动评分技术研究,TP391.1
  18. 分布式搜索引擎索引安全及缓存策略研究,TP333
  19. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  20. 基于AJAX的民生平台的开发设计,TP311.52
  21. 基于嵌入式Web服务器应用技术的研究,TP393.05

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com