学位论文 > 优秀研究生学位论文题录展示
Web使用挖掘中的会话聚类研究
作 者: 杨钤雯
导 师: 寇纪淞
学 校: 天津大学
专 业: 信息管理与信息系统
关键词: web使用日志 数据挖掘 相似度计算 聚类 个性化推荐
分类号: TP311.13
类 型: 硕士论文
年 份: 2007年
下 载: 2次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机网络技术发展和成熟,web已成为几们获取信息的一个重要途径。web使用挖掘是指利用数据挖掘技术从web数据中发现用户使用模式的过程,是一个结合了众多学科技术的新兴领域,聚类是web使用挖掘的一项重要技术。本文从web使用挖掘的会话聚类入手,主要做了以下工作:首先,针对web使用挖掘会话聚类的维数灾难问题,提出了带有语义的本体(c,T, F)表示会话的方法,可以大大降低会话的维数,同时包含了计算会话之间相似度的大量信息,用网页所属的语义上的概念表示网页有助于分忻者对用户路径的语义上的理解,从而可以改进web使用挖掘的结果,同时可以挖掘出更多有意义的模式。其次,针对weh使用挖掘会话相似度计算过于简单,导致不能包含与用户兴趣相关的多个因素的信息,提出基于公共路径的相似度计算法SMSC。首先计算两个会话公共路径的相似度,然后推出两个会话的相似度,计算公共路径的相似度时,采用分治的方法,分为内部相似度和外部相似度分别计算,实验证明,这种相似度计算方法可以提高聚类的精度。最后,在聚类结果的可视化方面,没有采用传统的序列模式挖掘方法,取而代之的是用直观且容易理解的stratogram,而且整合了“时间”的概念,除了发现用户的行为模式,还能看出用户在网站中经历的不同阶段,包括离开网站的信息,从而可以在此基础上对用户和网站设计者改进网站设计做出推荐。最后,简单介绍了weh使用挖掘的应用——个性化推荐。
|
全文目录
摘要 3-4 英文摘要 4-7 第1章 绪论 7-19 1.1 数据挖掘技术的产生和发展 7-10 1.2 Web数据挖掘 10-11 1.3 Web使用挖掘 11-16 1.3.1 Web使用挖掘的源数据 11-12 1.3.2 Web使用挖掘的数据预处理 12-14 1.3.3 Web使用挖掘的方法 14-16 1.4 语义网wcb使用挖掘 16-17 1.5 本文的主要研究工作和刨新 17-19 第2章 Web使用挖掘的会话聚类的相似度计算 19-34 2.1 Web日志会话聚类的发展 19-20 2.2 几种相似度计算方法 20-25 2.2.1 传统的相似度计算方法 20-24 2.2.2 基于浏览路径的角度的相似性度量 24-25 2.3 一种新的基于本体和公共路径的相似度计算方法 25-30 2.3.1 相关的概念和应用 25-26 2.3.2 本体 26-27 2.3.3 相似性度量SMSCI 27-30 2.4 聚类实验及其结果分忻 30-33 2.4.1 Silhouette值 31 2.4.2 实验结果及其分忻 31-33 2.5 本章小结 33-34 第3章 Web使用挖掘聚类结果的可视化技术 34-46 3.1 序列模式挖掘 34-40 3.1.1 序列模式挖掘中的相关概念 34-35 3.1.2 候选产生和消除的 GSt,算法 35-37 3.1.3 序列模式挖掘的模式增长方法 37-40 3.2 聚类结果的可视化—stratograrn 40-41 3.3 一种新的基于stratograrn的序列模式挖掘和可视化方法 41-45 3.4 本章小结 45-46 第4章 Web使用挖掘日志聚类的应用 46-51 4.1 个性化推荐系统 46-47 4.2 基于模式发现的推荐过程 47-49 4.3 基于strntogram的个性化推荐 49-50 4.4 本章小结 50-51 第5章 总结和对未来工作的展望 51-53 参考文献 53-57 发表论文和科研情况说明 57-58 致谢 58
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|