学位论文 > 优秀研究生学位论文题录展示
以博客内容为对象的个性化搜索研究
作 者: 范慧
导 师: 方少红
学 校: 华中科技大学
专 业: 软件工程
关键词: 个性化搜索 用户兴趣 向量空间模型 搜索引擎 相似度定义
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 99次
引 用: 0次
阅 读: 论文下载
内容摘要
一百个人,就有一百种搜索需求。而现有的搜索引擎基本上采用“一个搜索适用所有用户”的模型,把用户淹没在过量无效的信息中,无视用户的背景、兴趣爱好、行为、检索环境等。虽然现在第三代搜索引擎还没有问世,但是个性化无疑是解决上述问题的一个发展趋势。个性化搜索很简单,它的意思就是搜索引擎越了解你,那么它就越有能力为你剔除无关的搜索结果。这样的个性化搜索引擎就不再只是一个互联网上搜索有用信息的冷冰冰的工具,而是可以帮助我们理解自己,理解世界的朋友。为了实现个性化搜索,本文避开了传统的通过收集用户的点击流,用户的上网历史等伤害用户隐私的方式来建立用户兴趣模型,而是去深度挖掘用户愿意在网上公开发表的文章——博客,以此来识别用户的兴趣。在开源网络蜘蛛和开源检索库的帮助下,开发了一个以博客内容为对象的个性化搜索引擎,初步实现了个性化搜索和个性化推荐的功能。个性化搜索子系统,在分析了传统关键词排序技术的基础上,提出了加入用户兴趣因子的相似度定义,重写了搜索结果的排序算法。传统的搜索引擎只建立了关键词和信息之间的关系。这里隐式地从用户愿意公开发表的博客内容提取出用户兴趣,采用简洁明了的空间向量模型建立了人,关键词,信息之间的联系,改善了检索结果。个性化推荐子系统,通过计算用户之间的兴趣相似度,实现了给用户推荐博客文章以及推荐志趣相投的博友的功能,做到了人与人的交流互动。最后分析了系统可能面临的问题,提出了两个可能的发展方向和对未来完美搜索的憧憬。
|
全文目录
摘要 5-6 Abstract 6-10 1 绪论 10-16 1.1 课题背景 10-14 1.2 本文工作 14-15 1.3 本文组织 15-16 2 搜索引擎的理论基础 16-35 2.1 搜索引擎技术理论 16-22 2.2 HERITRIX 开源爬虫 22-26 2.3 HTML PARSER 26-29 2.4 LUCENE 开源检索库 29-34 2.5 本章小结 34-35 3 博客个性化搜索系统设计 35-53 3.1 博客个性化搜索的需求分析 35-37 3.2 博客个性化搜索的解决方案 37-40 3.3 个性化搜索排序算法 40-48 3.4 博文推荐算法 48-51 3.5 博友推荐算法 51-52 3.6 本章小结 52-53 4 博客个性化搜索系统实现 53-68 4.1 系统总体架构 53-54 4.2 关键模块设计与实现 54-67 4.3 本章小结 67-68 5 总结与展望 68-70 5.1 全文总结 68-69 5.2 展望 69-70 致谢 70-71 参考文献 71-74
|
相似论文
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 网络搜索引擎的相关技术研究,G354
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|