学位论文 > 优秀研究生学位论文题录展示
搜索引擎个性化检索及用户推荐功能的设计与实现
作 者: 徐小乐
导 师: 何友全
学 校: 重庆交通大学
专 业: 计算机应用技术
关键词: 搜索引擎 用户推荐 中文分词 Lucene Ajax
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 58次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的飞速发展,网上信息量剧增,人们从海量信息中挖掘出可用信息日益困难。目前人们采用搜索引擎的方式在互联网上检索信息,传统搜索引擎,如国外的Google,yahoo,国内的百度,天网等,都迅速发展起来。截止2010年6月,中国网民数量增长到4亿,网民中使用搜索引擎的比率大于百分之七十,国外的搜索引擎使用比率更高,因此搜索引擎的市场前景看好。然而通用搜索引擎的结果面向大多数用户,当检索词相同时,返回给用户的结果一致。事实上,随着年龄,性别,学历,专业等的不同,不同用户对同一检索词的兴趣点不一致。个性化搜索引擎试图通过分析文档结构、用户浏览行为信息及用户对文档的评价信息,建立用户的兴趣模型,指导搜索引擎的查询结果以及结果排序,力图满足每个用户的需求。本文主要实现了搜索引擎中的三个功能:1、中文分词技术。2、实现了用户推荐功能。3、实现了个性化检索,对相同查询词根据用户兴趣不同返回更适合用户兴趣点的结果。中文分词是自然语言处理的范畴,是搜索引擎查询和建立索引的基础。目前中文分词算法比较常用的有基于词典的分词算法,基于统计的分词算法和基于规则的分词算法。基于词典的分词算法设计思想简单,为大多数程序员所使用。但是中文分词存在两大难点问题,歧义的消除和未登录词的识别。经过众多学者的努力,目前仍未完美的解决此问题。本文的分词算法,对原有分词算法做了部分改进,提高了分词的精度。在用户使用搜索引擎检索的过程中,查询词是用户与搜索引擎交互的唯一手段。查询词的准确与否直接关系到用户检索结果的精度。然而大多数用户不能准确描述自己所遇到的问题,因此会影响到返回的结果。用户推荐的出现很好的解决了这一问题,当用户输入查询限制时,先通过中文分词技术把字符串切割成词语,然后根据关联规则给用户推荐返回更多具有语义相关性的查询结果,供用户选择或者参考。个性化检索是指通过挖掘用户兴趣信息,建立合理的模型来表示、管理用户兴趣,并通过不断更新与维护,逐步优化模型,使其能准确反映用户的兴趣需求,为后续搜索工作提供个性化的分析依据。其包括用户所搜索的关键词,对搜索结果的点击,各个网站浏览行为,书签情况等。搜索引擎掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。论文创新点在于:1)设计了自己的中文分词核心词典,其包括常用汉语词语119803条,计算机术语1015条。新词词典是通过计算机程序的主动学习,不断加入未登录词,新词。新词词典用于存放切分词语时出现的未登录词和歧义词,在分词结束时对主要词典进行扩充。本文实现的中文分词提高了现有分词算法的精度。2)在基于通用搜索引擎实现技术的基础上,加入用户兴趣模型,实现了个性化检索技术。用户兴趣模型的建立,是通过web日志挖掘技术,挖掘用户的历史浏览记录和浏览行为,基于群体环境,找到相似用户,利用相似用户的检索结果或者相似用户的兴趣,来扩展所处理信息的广度和精度。
|
全文目录
摘要 3-5 ABSTRACT 5-9 第一章 绪论 9-16 1.1 研究的背景与意义 9-10 1.2 国内外研究现状 10-11 1.3 搜索引擎的关键技术 11-13 1.4 本文研究的主要内容及意义 13-15 1.5 全文组织结构 15 1.6 本章小结 15-16 第二章 中文分词技术 16-27 2.1 中文分词概述 16 2.2 中文分词的难点 16-18 2.3 三种传统分词方法 18-20 2.3.1 基于词典的分词算法 18-19 2.3.2 基于统计的分词算法 19 2.3.3 基于规则的分词算法 19-20 2.4 词典的建立 20 2.5 停用词过滤 20-22 2.6 分词算法的设计 22-24 2.6.1 常用双向最大匹配法 22 2.6.2 优化的双向最大匹配算法 22-23 2.6.3 工作流程图 23-24 2.7 歧义消除 24 2.7.1 歧义的产生 24 2.7.2 歧义消除 24 2.8 实验结果 24-25 2.9 实验分析 25-26 2.10 本章小结 26-27 第三章 用户推荐 27-39 3.1 用户推荐概述 27-28 3.2 Ajax 技术 28-33 3.2.1 Ajax 原理 28-29 3.2.2 Ajax 核心技术 29-32 3.2.3 Ajax 的优势 32-33 3.3 用户推荐功能 33-36 3.3.1 设计思想 33 3.3.2 关键词智能扩展的实现 33-35 3.3.3 工作流程图 35-36 3.4 本部分结果及分析 36-37 3.5 本章小结 37-39 第四章 个性化检索技术 39-53 4.1 个性化检索概述 39-40 4.2 Lucene 技术 40-42 4.3 个性化检索的几个前提假设 42-43 4.4 若干关键技术 43-47 4.4.1 用户接口 43-44 4.4.2 网页搜集 44 4.4.3 索引 44-45 4.4.4 检索 45-46 4.4.5 web 挖掘技术 46-47 4.5 用户兴趣模型 47-52 4.5.1 用户建模技术 48 4.5.2 用户模型的表示 48-49 4.5.3 用户兴趣模型的更新 49-52 4.5.4 兴趣模型的存储 52 4.6 本章小结 52-53 第五章 系统的设计与实现 53-68 5.1 系统的开发环境 53 5.2 索引的建立 53-55 5.3 用户界面 55-56 5.4 用户推荐技术 56-57 5.5 中文分词 57 5.6 用户注册 57-60 5.7 检索 60-61 5.8 个性化搜索引擎 61-63 5.9 实验分析 63-67 5.10 本章小结 67-68 第六章 总结与展望 68-71 6.1 总结 68-70 6.2 存在的问题及展望 70-71 致谢 71-72 参考文献 72-76 在学期间发表的论著及取得的科研成果 76
|
相似论文
- 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
- 网络搜索引擎的相关技术研究,G354
- 基于嵌入式Web服务器的监控系统研究,TP393.05
- 基于Web的科学计算遗留应用共享技术研究,TP393.09
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 数字化查账系统研究,TP311.52
- 社区WebGIS原型系统设计与实现,P208
- 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 基于SNS的网络协作学习平台设计与实现,TP311.52
- 高校学生工作管理系统的分析与设计,TP311.52
- Web管理信息系统性能优化研究,TP311.52
- 宜春学院学生就业管理系统的设计与实现,TP311.52
- 主观题自动评分技术研究,TP391.1
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于AJAX的民生平台的开发设计,TP311.52
- 基于嵌入式Web服务器应用技术的研究,TP393.05
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|