学位论文 > 优秀研究生学位论文题录展示

面向微博用户的标签自动生成技术研究

作　者: 谢毓彬
导　师: 刘挺
学　校: 哈尔滨工业大学
专　业: 计算机科学与技术
关键词: 微博用户标签 TextRank 聚类分析文本分类百度百科
分类号: TP393.092
类　型: 硕士论文
年　份: 2012年
下　载: 132次
引　用: 0次
阅　读: 论文下载

内容摘要

近年来，微博服务作为新型的互联网应用，受到了越来越多用户的关注。在自然语言处理、信息检索和社会计算等相关领域，针对微博的研究工作也在逐渐开展和积累中。微博用户标签，作为描述用户兴趣爱好、职业领域特征等的载体，在用户组织和搜索，挖掘用户兴趣、实现微博上的个性化等方面有着重要的作用。本文着眼于基于微博内容的用户标签自动生成，借助对内容的分析，生成能够体现用户兴趣的标签。本文通过新浪微博API随机获取了百万级规模的标签相关数据，用于分析用户标签在统计、语义等方面的特征。同时，我们对基于文本的标签源：用户的原创、转发、评论和收藏微博的语义相似度及其对反映用户兴趣的贡献进行了实验和分析，结果表明标签源间的语义相似度并不高；而转发微博更能体现用户兴趣，评论最差，从而也确定了本文中生成标签的文本来源。本文从生成标签的不同粒度出发，分别从基于关键词和基于类别的角度自动生成微博用户标签。对生成结果的评价准则有两条：一是生成结果是否准确体现了用户兴趣；二是生成结果是否适合作为用户标签。在基于关键词的生成方法中，引入了基于TextRank的标签生成方法，通过分析微博中词语的共现关系，构建词语网络，抽取较为重要的词用于标签生成。为了使生成的标签能在更多的维度上体现用户兴趣，接着提出了基于聚类分析的生成方法，从较重要的聚类簇中提取代表词用于标签生成。实验表明，两种方法都优于我们的baseline。同时，我们也对两种方法进行了讨论、对比和分析。在基于类别的生成方法中，将用户感兴趣的若干个类别作为其标签。首先提出了基于短文本分类的标签生成方法，人工构建目标分类体系及微博训练语料，识别出用户感兴趣的类别作为标签。随后，我们在更细的粒度上为用户打标签：利用百度百科具有三层分类信息的词条资源，识别出用户关注的类别作为标签。实验表明，两种方法生成标签的准确率均能达到70%左右。同时，我们也对这两种方法进行了讨论、对比和分析。

全文目录

摘要  4-5
Abstract  5-9
第1章绪论  9-17
  1.1 课题背景  9-10
  1.2 课题研究目的和意义  10-12
  1.3 国内外相关研究现状与分析  12-16
    1.3.1 社会化标签  12-14
    1.3.2 微博用户标签  14-16
  1.4 本文的主要研究内容及章节安排  16-17
第2章标签相关数据的获取及分析  17-26
  2.1 引言  17
  2.2 标签相关数据的获取  17-20
    2.2.1 微博 API 介绍  17-20
    2.2.2 基于微博 API 的数据获取  20
  2.3 标签相关数据分析  20-24
    2.3.1 数据集  20
    2.3.2 标签的若干特征  20-24
  2.4 本章小结  24-26
第3章基于文本的标签源分析  26-36
  3.1 引言  26
  3.2 用户产生标签源的行为及统计性质  26-27
  3.3 标签源的语义相似度  27-30
    3.3.1 词语级别的相似度  27-29
    3.3.2 主题级别的相似度  29-30
  3.4 标签源选择对反映用户兴趣的影响  30-35
    3.4.1 方案  30-31
    3.4.2 数据  31
    3.4.3 结果  31-35
  3.5 本章小结  35-36
第4章基于关键词的标签自动生成  36-51
  4.1 引言  36
  4.2 基于 TextRank 的生成方法  36-42
    4.2.1 TextRank 概述  36-37
    4.2.2 生成方法  37-39
    4.2.3 实验与结果分析  39-42
  4.3 基于聚类分析的生成方法  42-48
    4.3.1 关键技术与原理  42-44
    4.3.2 生成方法  44-46
    4.3.3 实验与结果分析  46-48
  4.4 两种方法对比与分析  48-50
  4.5 本章小结  50-51
第5章基于类别的标签自动生成  51-69
  5.1 引言  51
  5.2 基于短文本分类的生成方法  51-63
    5.2.1 关键技术与原理  51-55
    5.2.2 生成方法  55-57
    5.2.3 实验与结果分析  57-63
  5.3 基于百度百科的生成方法  63-68
    5.3.1 百度百科介绍  63-64
    5.3.2 生成方法  64-66
    5.3.3 实验与结果分析  66-68
  5.4 两种方法对比与分析  68
  5.5 本章小结  68-69
结论  69-71
参考文献  71-76
致谢  76

面向微博用户的标签自动生成技术研究

内容摘要

全文目录

相似论文