学位论文 > 优秀研究生学位论文题录展示

改进的聚类挖掘算法对网络自助出版“长尾”文本的推荐应用

作 者: 刘晨晨
导 师: 徐一新
学 校: 复旦大学
专 业: 图书馆学
关键词: 个性化推荐技术 自助出版系统 长尾 DCA算法
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 62次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机技术的日益普及,网络被更加广泛地应用于人们生活、学习的各个领域。由于网络信息资源的极大丰富,信息服务的个性化越来越引起人们的重视。满足特定用户的特定信息需求成为信息服务在新的网络环境中的服务目标。个性化推荐系统一就在这个背景下应运而生。个性化推荐系统是在互联网上使用数据挖掘,人工智能等技术,为客户提供智能化、个性化的服务,它能够向客户推荐页面或产品,并可以引导客户有针对性的对网页信息或某些产品信息进行关注。网络的发展使得普通大众进入了网络创作的领域,而美国自助出版的成功运作,又给网络市场提供了一个极富潜力的增长点。长尾理论反驳了经典的“二八”理论,指出小市场力量的汇聚可形成与大市场匹敌的市场能量。随着自助出版系统文本规模的迅速增长以及其独特的创造性和多变性,选用合理的推荐技术有利于“长尾”文本的发掘和价值实现。针对自助出版文本数据库,本文设计了基于有向图的聚类算法DCA (Directed Graph Clustering Algorithm),将聚类看成是确定对象的过程,根据词间信息传递量的大小选定特征词集对文本进行聚类。实验结果表明,较之K-Means算法,该算法有较强的自适应性和通用性,能有效地运用到自助出版文本的个性化推荐系统领域。推荐系统的核心是推荐的方法,也是本文研究的重点。本文针对长尾文本的推荐问题,设置了浮动相似度阙值及推荐公共池,构筑了从数据清洗到数据挖掘最后到生成推荐的完整系统,然后理论联系实际,以实验证实了该系统的可行性和实用性。

全文目录


中文摘要  5-6
ABSTRACT  6-7
引言  7-8
第一章 绪论  8-14
  第一节 数据挖掘理论研究  8-14
    一、数据挖掘  8-11
      (一) 数据挖掘的定义  8-9
      (二) 数据挖掘的方法  9-10
      (三) 数据挖掘的流程  10
      (四) Web挖掘研究  10-11
    二、文本聚类  11-13
      (一) 聚类综述  11-12
      (二) 文本聚类的方法  12-13
    三、本文研究内容和结构安排  13-14
第二章 基于有向图的聚类算法  14-24
  第一节 自助出版与长尾理论研究  14-16
  第二节 基于有向无环图的长尾聚类算法描述  16-24
    一、问题研究  16-17
    二、算法基本思想  17-19
      (一) 算法形式化定义  17
      (二) 节点权重计算  17-18
      (三) 相似度计算与记录集合并  18-19
    三、基于有向无环图的长尾聚类算法代码实现  19-21
    四、算法性能测试  21-24
      (一) 基准数据集准备  21
      (二) 算法性能评价标准  21-22
      (三) 测试结果与分析  22-24
第三章 个性化推荐系统分析与总体设计  24-39
  第一节 系统背景介绍  24-28
    一、个性化推荐服务发展历程  24-25
      (一) 国外个性化服务研究历程  24-25
      (二) 国内个性化服务的研究历程  25
    二、个性化推荐系统研究现状  25-28
      (一) 个性化推荐系统研究现状概述  25-26
      (二) 个性化系统代表性推荐技术介绍  26-27
      (三) 目前方法存在的问题  27-28
  第二节 推荐系统结构设计  28-31
    一、推荐系统总体架构  28-29
    二、推荐系统功能模块设计  29-31
      (一) 系统被动推荐模块  29
      (二) 系统主动推荐模块  29-31
  第三节 推荐系统运行流程  31-36
    一、Web源数据预处理  31-34
      (一) 数据清洗  31
      (二) 识别客户访问事务  31-32
      (三) 偏好数据库构造  32-34
    二、推荐列表生成  34-36
  第四节 个性化推荐系统应用实例  36-39
    一、推荐系统需求分析  36
    二、开发环境和工具  36
    三、推荐系统评估标准  36-37
    四、应用试验结果分析  37-39
      (一) 系统性能评价  37-38
      (二) 系统面临的挑战和研究方向  38-39
第四章 总结和展望  39-41
参考文献  41-45
后记  45-46

相似论文

  1. 面向公众的教育视频共建共享平台的设计与实践研究,G434
  2. 栖热菌噬菌体TSP4基因组解析及其解旋酶表达,Q939.48
  3. 面向长尾市场的包装产品设计研究,TB482
  4. 电信运营商的无线音乐商业模式探讨,F626
  5. 非寿险长尾业务未决赔款准备金评估研究,F842.6
  6. 数字媒体环境下电视的发展空间,G220
  7. 个性化推荐技术在网络教学中的应用研究,TP391.3
  8. 网络销售中长尾效应和明星效应互动关系研究,F724.6
  9. 移动通信长尾价值开发研究,F626
  10. 1990年代以来丹麦电影的国际化策略,J905
  11. 基于ASP.NET的小学教师教育技术能力培训平台研究与设计,G625.1
  12. 重尾随机变量的一类精致大偏差,O211.5
  13. 当代昆曲传播的媒介图景研究,J825
  14. 我国传统出版物的现代“长尾”研究,G239.2
  15. 重尾分布的相关性质和随机和的年龄性质,O211.3
  16. 云南大中山黑颈长尾雉植物性食物和取食生境模拟,Q958.12
  17. 基于长尾理论的网络广告联盟研究,F713.80
  18. 电子市场中的长尾现象:利基产品和主流产品竞争的研究,F713.36
  19. 黑尾地鸦和银脸长尾山雀线粒体基因组序列测定与系统发育分析,Q951
  20. 地山雀、黄腹山雀和红头长尾山雀线粒体全基因组序列测定和分析,Q953

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com