学位论文 > 优秀研究生学位论文题录展示

面向微博用户的标签自动生成技术研究

作 者: 谢毓彬
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 微博用户标签 TextRank 聚类分析 文本分类 百度百科
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 132次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,微博服务作为新型的互联网应用,受到了越来越多用户的关注。在自然语言处理、信息检索和社会计算等相关领域,针对微博的研究工作也在逐渐开展和积累中。微博用户标签,作为描述用户兴趣爱好、职业领域特征等的载体,在用户组织和搜索,挖掘用户兴趣、实现微博上的个性化等方面有着重要的作用。本文着眼于基于微博内容的用户标签自动生成,借助对内容的分析,生成能够体现用户兴趣的标签。本文通过新浪微博API随机获取了百万级规模的标签相关数据,用于分析用户标签在统计、语义等方面的特征。同时,我们对基于文本的标签源:用户的原创、转发、评论和收藏微博的语义相似度及其对反映用户兴趣的贡献进行了实验和分析,结果表明标签源间的语义相似度并不高;而转发微博更能体现用户兴趣,评论最差,从而也确定了本文中生成标签的文本来源。本文从生成标签的不同粒度出发,分别从基于关键词和基于类别的角度自动生成微博用户标签。对生成结果的评价准则有两条:一是生成结果是否准确体现了用户兴趣;二是生成结果是否适合作为用户标签。在基于关键词的生成方法中,引入了基于TextRank的标签生成方法,通过分析微博中词语的共现关系,构建词语网络,抽取较为重要的词用于标签生成。为了使生成的标签能在更多的维度上体现用户兴趣,接着提出了基于聚类分析的生成方法,从较重要的聚类簇中提取代表词用于标签生成。实验表明,两种方法都优于我们的baseline。同时,我们也对两种方法进行了讨论、对比和分析。在基于类别的生成方法中,将用户感兴趣的若干个类别作为其标签。首先提出了基于短文本分类的标签生成方法,人工构建目标分类体系及微博训练语料,识别出用户感兴趣的类别作为标签。随后,我们在更细的粒度上为用户打标签:利用百度百科具有三层分类信息的词条资源,识别出用户关注的类别作为标签。实验表明,两种方法生成标签的准确率均能达到70%左右。同时,我们也对这两种方法进行了讨论、对比和分析。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-17
  1.1 课题背景  9-10
  1.2 课题研究目的和意义  10-12
  1.3 国内外相关研究现状与分析  12-16
    1.3.1 社会化标签  12-14
    1.3.2 微博用户标签  14-16
  1.4 本文的主要研究内容及章节安排  16-17
第2章 标签相关数据的获取及分析  17-26
  2.1 引言  17
  2.2 标签相关数据的获取  17-20
    2.2.1 微博 API 介绍  17-20
    2.2.2 基于微博 API 的数据获取  20
  2.3 标签相关数据分析  20-24
    2.3.1 数据集  20
    2.3.2 标签的若干特征  20-24
  2.4 本章小结  24-26
第3章 基于文本的标签源分析  26-36
  3.1 引言  26
  3.2 用户产生标签源的行为及统计性质  26-27
  3.3 标签源的语义相似度  27-30
    3.3.1 词语级别的相似度  27-29
    3.3.2 主题级别的相似度  29-30
  3.4 标签源选择对反映用户兴趣的影响  30-35
    3.4.1 方案  30-31
    3.4.2 数据  31
    3.4.3 结果  31-35
  3.5 本章小结  35-36
第4章 基于关键词的标签自动生成  36-51
  4.1 引言  36
  4.2 基于 TextRank 的生成方法  36-42
    4.2.1 TextRank 概述  36-37
    4.2.2 生成方法  37-39
    4.2.3 实验与结果分析  39-42
  4.3 基于聚类分析的生成方法  42-48
    4.3.1 关键技术与原理  42-44
    4.3.2 生成方法  44-46
    4.3.3 实验与结果分析  46-48
  4.4 两种方法对比与分析  48-50
  4.5 本章小结  50-51
第5章 基于类别的标签自动生成  51-69
  5.1 引言  51
  5.2 基于短文本分类的生成方法  51-63
    5.2.1 关键技术与原理  51-55
    5.2.2 生成方法  55-57
    5.2.3 实验与结果分析  57-63
  5.3 基于百度百科的生成方法  63-68
    5.3.1 百度百科介绍  63-64
    5.3.2 生成方法  64-66
    5.3.3 实验与结果分析  66-68
  5.4 两种方法对比与分析  68
  5.5 本章小结  68-69
结论  69-71
参考文献  71-76
致谢  76

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  4. 大学生综合素质测评研究,G645.5
  5. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  6. 21个荷花品种遗传多样性的ISSR分析,S682.32
  7. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  8. 南通市农业面源污染负荷研究与综合评价,X592
  9. 土壤环境功能区划研究,X321
  10. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  11. 大豆杂种优势及其遗传基础研究,S565.1
  12. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  13. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  14. 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
  15. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  16. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  17. 肺炎克雷伯菌耐药机制及分子流行病学研究,R446.5
  18. 基于本体的食品投诉文档文本分类研究,TP391.1
  19. 基于本体的中文科技论文分类研究,TP391.1
  20. 河南周边省份马铁菊头蝠的种下分类研究,Q959
  21. 面向专科院校的图书管理与智能分析系统,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com