学位论文 > 优秀研究生学位论文题录展示
基于特征向量的个性化推荐算法研究
作 者: 杜定宇
导 师: 王茜
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 推荐系统 协同过滤方法 数据挖掘 相似性
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 70次
引 用: 0次
阅 读: 论文下载
内容摘要
电子商务个性化推荐系统随着Web2.0技术的迅猛发展得到了广泛的关注和普及,为用户在日益增长的海量信息中发现自己所需要的信息提供了一种有效方法。电子商务网站使用电子商务推荐系统为用户提供个性化服务,模拟销售人员帮助用户进行购买。电子商务个性化推荐系统通过建立用户与信息之间的二元关系,利用相似性从海量信息库中挖掘目标用户可能感兴趣的对象,其本质是信息过滤,在理论和实践中都得到了很大发展,已有多种推荐算法提出并得到应用,包括基于人口统计学的推荐、基于内容的推荐、协同过滤推荐以及由不同的推荐方法组合而成的混合推荐,其中协同过滤是最成功和得到最广泛应用的推荐方法。随着电子商务规模的不断扩大,协同过滤方法遇到了一些挑战:数据稀疏性、可扩展性、冷开始问题等。本文对协同过滤推荐算法进行了深入的研究,提出了一种基于特征向量的协同过滤推荐算法,论文的主要研究工作及成果如下:①观察用户评分规律,研究已有评分一致性方法的优势和不足,提出了一种改进的评分一致性方法,能够有效解决用户打分尺度不一致的问题。②传统相似度度量方法直接在整个评分矩阵上度量对象之间的相似度,其精确度受到矩阵稀疏性的很大影响,也没有考虑产品特征,因而推荐质量不够理想,实时性也较差,本文提出的基于特征向量的推荐算法使用统计分析技术扫描评分矩阵和产品特征得到用户和产品的配置文件,配置文件保存特征向量,并在此基础上计算相似度,降低了计算复杂度,改善了数据的稀疏性,提高了推荐质量。③对传统推荐流程进行了分析,找出不足并对其进行改进。优化了部分步骤,减少了不必要的计算,进一步提高了推荐的实时性。算法分为初始化、离线更新、在线三个阶段执行,初始化阶段创建用户和产品的配置文件并计算相互之间的相似度;离线更新阶段使用不同的更新频率来更新用户与最近邻用户和全部其它用户的相似度;在线阶段使用改进的推荐算法,不必扫描所有的产品即可向用户产生推荐,在用户新产生对产品的评分时,增量更新配置文件。④实现了上述算法,利用Movielens数据集,首先分析和比较了Cosine、Pearson、Off-Cosine相似度计算方法的推荐准确度,然后针对本文提出的改进算法和传统算法进行了多个对比实验,实验表明:算法在推荐准确度和实时性上达到了较好效果。
|
全文目录
摘要 3-4 ABSTRACT 4-9 1 绪论 9-16 1.1 研究的目的和意义 9-10 1.2 研究现状 10-14 1.2.1 电子商务发展趋势 10-12 1.2.2 个性化服务应用现状 12-14 1.3 主要研究内容 14 1.4 论文结构 14-16 2 个性化推荐系统及相关技术概述 16-27 2.1 个性化推荐系统的概念 16 2.2 个性化推荐系统的目标 16-17 2.3 个性化推荐系统的实现 17-19 2.3.1 淘宝taobao.com 17-18 2.3.2 当当dangdang.com 18 2.3.3 亚马逊amazon.com 18 2.3.4 音乐推荐网站www.pandora.com 18-19 2.3.5 豆瓣douban.com 19 2.4 个性化推荐系统的架构 19-20 2.5 个性化推荐系统的算法 20-26 2.5.1 基于人口统计学的推荐算法 21 2.5.2 基于用户的协同过滤算法 21-23 2.5.3 基于产品的协同过滤算法 23 2.5.4 基于模型的协同过滤算法 23 2.5.5 基于内容的推荐算法 23-24 2.5.6 基于网络结构的推荐算法 24-25 2.5.7 组合推荐算法 25-26 2.5.8 其它推荐算法 26 2.6 小结 26-27 3 传统协同过滤算法 27-35 3.1 协同过滤的定义 27 3.2 协同过滤推荐的分类 27-28 3.3 协同过滤推荐算法的步骤 28-31 3.3.1 收集用户偏好 28-29 3.3.2 计算相似度 29-30 3.3.3 产生推荐 30-31 3.4 协同过滤推荐算法存在的主要问题 31-32 3.4.1 User-based 协同过滤推荐算法分析 31-32 3.4.2 Item-based 协同过滤推荐算法分析 32 3.5 协同过滤推荐算法的改进方法 32-34 3.5.1 缺省评分填充 32-33 3.5.2 聚类 33-34 3.6 小结 34-35 4 基于特征向量的协同过滤推荐系统 35-45 4.1 改进算法的提出 35 4.2 相关概念和定义 35-37 4.2.1 产品特征 35-36 4.2.2 特征权值 36-37 4.3 用户兴趣模型 37-38 4.4 产品信息模型 38-39 4.4.1 产品基本信息的表示 38 4.4.2 产品品质信息的表示 38-39 4.4.3 产品配置文件 39 4.5 计算预测评分 39-40 4.6 产生推荐 40-41 4.7 算法的其它改进与优化 41-42 4.8 系统模块功能设计 42-44 4.8.1 产品信息模型管理模块 42-43 4.8.2 用户偏好模型管理模块 43 4.8.3 产品特征模型管理模块 43 4.8.4 推荐模块 43-44 4.8.5 展示模块 44 4.9 小结 44-45 5 实验结果及分析 45-52 5.1 实验设计 45-46 5.1.1 实验数据集选取 45 5.1.2 评测标准 45-46 5.1.3 实验方案 46 5.2 结果分析 46-50 5.2.1 确定相似度计算方法 46-47 5.2.2 特征向量相似度的效果分析 47-48 5.2.3 组合推荐算法的效果分析 48-49 5.2.4 训练所需时间对比 49-50 5.3 实验结果总结 50-51 5.4 小结 51-52 6 结论与展望 52-53 6.1 全文工作总结 52 6.2 进一步的工作 52-53 致谢 53-54 参考文献 54-58 附录 58 A. 作者在攻读学位期间发表的论文目录 58
|
相似论文
- 基于行为特征的IRC僵尸网络检测方法研究,TP393.08
- 构式语法观照下的高中英语双及物结构教学研究,G633.41
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 平顶山烤烟综合质量评价及与美国烤烟的对比分析,S572
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 旅游对芦芽山国家级自然保护区典型植被的影响,S759.9
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 基于形状的汉画像检索技术研究,TP391.41
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|