学位论文 > 优秀研究生学位论文题录展示
个性化网络搜索引擎研究
作 者: 郭晓刚
导 师: 刘大有
学 校: 吉林大学
专 业: 计算机软件与理论
关键词: 搜索引擎 个性化 网络蜘蛛 Web挖掘 自动分词 用户兴趣挖掘 网页权重分析
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 160次
引 用: 1次
阅 读: 论文下载
内容摘要
随着信息技术的进步与互联网络的飞速发展,Web已经成为了人们获取信息的一种重要途径。为了满足用户的信息检索需求,搜索引擎应运而生,但因为技术的发展,现在的搜索引擎已经越来越无法令用户完全满意。本文针对搜索引擎的不足,在已有研究工作的基础上,对个性化网络搜索引擎进行了研究,并给出了相应的解决方法。论文首先对搜索引擎进行了综述包括搜索引擎的原理、现状、存在的问题、发展趋势等。针对个性化的网络搜索引擎的独特之处,分析了个性化网络搜索引擎所需要的一些关键技术。进一步,针对其中的中文分词技术和用户兴趣挖掘技术做了重点研究。分析了常用的自动分词算法,针对最大匹配法(MM算法)中存在的问题,把其中的减字规则改为增字规则,提出了一种改进的分词算法。通过对标准PageRank算法的深入研究发现,可以利用用户先前访问过的导航路径图来修正标准PageRank算法,同时,在考虑到不同用户访问不同网页的实际情况不同时,将当前网页对不同链出网页的推荐能力设定为非均衡的,由此得出一个优化的PageRank算法——基于用户访问日志的个性化PageRank算法。最后在上述研究基础上,使用PHP和MySQL实现了一个搜索原型系统MySearch。
|
全文目录
提要 4-8 第1章 绪论 8-12 1.1 研究背景 8-9 1.2 个性化网络搜索引擎的提出 9-10 1.3 本文的主要工作及组织结构 10-12 第2章 个性化搜索引擎 12-23 2.1 搜索引擎概述 12 2.2 搜索引擎的工作原理、流程和体系结构 12-14 2.3 搜索引擎的数据采集机制 14-15 2.4 搜索引擎存在的问题 15-16 2.5 Web 挖掘 16-18 2.5.1 Web 内容挖掘 16-17 2.5.2 Web 结构挖掘 17 2.5.3 Web 应用挖掘 17-18 2.6 个性化搜索引擎 18-21 2.6.1 个性化服务 18-19 2.6.2 个性化搜索引擎的含义 19-20 2.6.3 个性化搜索引擎的研究现状 20 2.6.4 个性化搜索引擎的体系结构 20-21 2.7 个性化搜索引擎的关键技术 21-23 第3章 自动分词技术和用户兴趣挖掘技术 23-33 3.1 中文自动分词技术 23-26 3.1.1 基于字符串匹配的分词方法 23-26 3.1.2 基于词频统计的分词方法 26 3.1.3 基于理解的分词方法 26 3.2 一种改进的自动分词算法 26-30 3.2.1 算法分析 26-29 3.2.2 实验与结果分析 29-30 3.3 用户兴趣挖掘技术 30-33 3.3.1 基本概念 30 3.3.2 获取用户兴趣的方式 30-31 3.3.3 用户识别 31-33 第4章 网页权重分析技术 33-43 4.1 标准 PageRank 算法 33-36 4.1.1 算法介绍 33-34 4.1.2 PageRank 算法的代数表达 34-36 4.2 基于用户访问日志的个性化 PageRank 36-39 4.3 实验与结果分析 39-43 第5章 MySearch原型系统的设计与实现 43-54 5.1 系统的开发方式 43 5.2 数据结构 43-46 5.3 系统实现 46-54 5.3.1 蜘蛛模块 46-50 5.3.2 用户信息模块 50-52 5.3.3 Web 网页分析模块 52 5.3.4 用户接口模块 52-54 第6章 结束语 54-56 6.1 工作总结 54 6.2 进一步的工作 54-56 参考文献 56-58 致谢 58-59 摘要 59-62 Abstract 62-64
|
相似论文
- 万科模式的居住小区设计研究,TU984.12
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 个性化检索中相似用户群的获取与更新,TP391.3
- 个性化人工膝关节设计及其生物力学特性研究,R318.1
- 大学生思想政治教育工作个性化教育的研究,G641
- OQAS对不同制瓣方式的个性化LASIK手术术后视觉质量的评估,R779.63
- 网络搜索引擎的相关技术研究,G354
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于语义网络的智能搜索引擎研究,TP391.3
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 网络环境下小学协同教育的策略研究,G629.2
- 基于自然遗忘的个性化推荐算法研究,TP311.52
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 网络学习系统中个性化学习指导系统构建研究,TP391.6
- 面向用户偏好的MADM方法在个性化推荐中的应用,G353.1
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 当代纺织品设计中图案风格的融合,J523
- 地板个性化送风方式的动态能耗分析研究,TU831
- 特殊体型数字化服装定制系统,TP391.72
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|