学位论文 > 优秀研究生学位论文题录展示

社会标签推荐技术与方法研究

作 者: 靳延安
导 师: 卢正鼎;李瑞轩
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 社会标签 隐含话题 用户动机 标签排序 信息检索
分类号: TP391.3
类 型: 博士论文
年 份: 2011年
下 载: 536次
引 用: 2次
阅 读: 论文下载
 

内容摘要


Web2.0的主要精髓在于用户创造内容。社会标签系统因为具有进入门槛低、操作灵活、易用等优点而逐渐成为Web 2.0环境下最流行的应用。作为社会标签系统的主要产物,社会标签具有组织、分享、检索和发现信息资源等众多优点,但也同样存在诸如标签分布很稀疏、用户标注很随意、标签使用率很低以及存在许多噪音标签等缺点,这些缺点削弱了标签在信息组织、分享、检索和发现的作用。因此,近年来,社会标签推荐技术受到了学术界以及企业界的广泛关注。研究内容围绕社会标签推荐系统中的推荐技术展开,主要包括以下内容:提出了一种基于词粒度和隐含话题粒度的标签推荐算法。资源的内容有不同粒度的表示形式,可以基于细粒度的具体的词来表示,也可以基于粗粒度的隐含话题进行表示。根据表示粒度的不同,提出了不同的标签推荐算法。在词粒度上,使用统计语言建模描述集、标签集;在隐含话题粒度上,使用隐含狄雷克雷特分配模型(Latent Dirichlet Allocaiton, LDA)建模描述集、标签集和用户集。实验结果表明,词粒度才是标签推荐的最佳选择;混合词粒度和话题粒度进行推荐的效果优于使用单个粒度推荐的效果;建模时,引入太多的建模元素可能导致噪音增加,使得推荐结果反而不好。提出了一种基于话题敏感的标签排序算法。社会标签推荐问题的本质是按照某种规则发现和排序相关的标签,从排序结果的列表中选择位置靠前的标签作为推荐的标签。但是由于标签在某些话题上的资源数量占绝对优势,使得标签在另外一些话题的资源完全被淹没,这样就影响了资源检索和利用时的准确率和召回率。使用隐含话题模型提取标签空间中蕴含的话题,依据标签的同现关系和标签的话题分布构筑基于话题的标签超图,在超图上利用随机游走模型计算标签在话题分布上的重要性,并将计算结果应用在标签的推荐上。实验结果表明,基于标签的话题对资源进行推荐的效果比一般标签推荐算法要好很多。提出了一种基于用户动机倾向性的推荐模型。为了提高用户对标签系统的可用性和粘性,加速社会标签的快速收敛和语义涌现,深入分析了社会标签空问,提出用5种度量指标来度量用户的动机,将用户分为描述倾向性的用户和分类倾向性的用户。在讨论了5种度量的有效性之后,提出基于用户动机倾向性的推荐模型(tag recommendation model based on User Motivation Orientation, UMO)。该模型首先根据用户标注历史,判定用户的动机倾向性,同时计算信息资源的动机倾向性,将用户动机倾向性和资源动机倾向性进行匹配,对匹配资源的标签进行聚合操作,然后计算聚合标签集合中的标签在资源内容上的相关性和标签重要性,选择top k个进行推荐。在两种不同性质的数据集上进行了实验,实验结果表明基于用户动机倾向性的社会标签推荐模型比其他基准方法具有更好的推荐性能。

全文目录


摘要  4-6
Abstract  6-10
1 绪论  10-16
  1.1 研究背景  10-11
  1.2 社会标签推荐系统主要研究内容  11-13
  1.3 本文研究的主要内容及成果  13-14
  1.4 论文的组织结构  14-16
2 社会标签系统及推荐相关问题  16-32
  2.1 引言  16-17
  2.2 社会标签系统的研究对象  17-20
  2.3 社会标签系统实例  20
  2.4 社会标签系统中的推荐技术  20-24
  2.5 社会标签推荐系统面临的问题  24-31
  2.6 本章小结  31-32
3 基于不同粒度的标签推荐  32-51
  3.1 引言  32-33
  3.2 基于词粒度的标签推荐  33-37
  3.3 基于话题粒度的标签推荐  37-42
  3.4 基于混合粒度的标签推荐  42-44
  3.5 实验分析  44-48
  3.6 本章小结  48-51
4 基于话题敏感的标签排序  51-65
  4.1 引言  51-52
  4.2 基于话题敏感的标签排序  52-59
  4.3 实验与分析  59-62
  4.4 基于话题敏感的标签推荐  62-63
  4.5 本章小结  63-65
5 基于用户动机倾向性的标签推荐  65-83
  5.1 引言  65-66
  5.2 用户标注动机倾向性的类型及度量  66-72
  5.3 用户标注动机倾向性判别  72-75
  5.4 基于用户动机倾向性的标签推荐  75-79
  5.5 实验与分析  79-81
  5.6 本章小结  81-83
6 总结与展望  83-86
  6.1 主要贡献  83-84
  6.2 工作展望  84-86
致谢  86-88
参考文献  88-95
附录1 攻读学位期间发表的论文  95-97
附录2 攻读学位期间参与的科研项目  97

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  3. 跨语言文本分类的研究,TP391.1
  4. 基于语义Web的信息检索技术研究,TP391.3
  5. 基于OWL的地名本体构建与检索机制研究,P208
  6. 面向地名本体服务的空间信息检索研究,P208
  7. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
  8. 网络议程设置与旅游目的地形象建构研究,F592
  9. 基于Web的中文元搜索引擎的研究及实现,TP391.3
  10. Kullback-Leibler距离检索框架下文摘在检索中的应用,TP391.3
  11. 基于特征短语的网页在线聚类方法,TP393.092
  12. 中—英文跨语言问答式信息检索技术研究,TP391.3
  13. 信息检索中迁移Markov网络模型的研究,TP391.3
  14. 搜索词的意图分析与应用,TP391.3
  15. Web结构挖掘算法研究及改进,TP393.09
  16. 基于随机游走的网页协同排序算法研究,TP393.092
  17. 基于文本相似度的局部Web社区识别技术,TP393.094
  18. 基于同义词扩展的贝叶斯网络结构化文档检索模型,TP391.3
  19. 基于社会化标注的查询扩展技术研究,TP391.3
  20. 基于分布式多索引融合的专利信息检索研究,TP391.3
  21. 大规模中英可比较语料库构建,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com