学位论文 > 优秀研究生学位论文题录展示

微博信息检索系统研究与开发

作 者: 林鹏祥
导 师: 何婷婷
学 校: 华中师范大学
专 业: 计算机应用技术
关键词: 微博 信息检索 兴趣模型 社区发现 推荐
分类号: TP391.3
类 型: 硕士论文
年 份: 2014年
下 载: 3次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络技术的发展,网络媒体正日益成为当今社会人们获取资讯的重要方式之一。这其中,微博自诞生之日起,就以其便捷性和实时性越来越受到网民的重视。每时每刻都有大量的微博消息被发布出来,如何处理这些海量数据,成为现代工业界和学术界的研究重点。微博网络中人与人的关系和现实世界中关系类似,会形成一个个类似的社区结构。在一定的时间段内,社区内部人与人之间联系密切,用户之间会有共同的兴趣。通过发现社区的兴趣得到社区关键词,可以得到与关键词相关的微博用户。通过发现用户的兴趣,可以得到与用户兴趣相同的其他用户和其感兴趣的微博内容。本文提出新的算法来发现微博网络中的社区结构,结合微博社区兴趣模型和微博用户兴趣模型,可以查询与关键词相关的微博用户和推荐兴趣相同的其他用户及感兴趣的微博内容。通过计算与其他用户兴趣模型概率分布的相似程度来得到兴趣相同的用户;通过计算微博用户的兴趣模型概率分布与微博的主题模型分布之间的相似程度来得到用户可能感兴趣的微博内容。本文利用Lucene对微博内容进行建索引,在查询扩展的基础之上,可以收到更好的检索效果。本文主要做了以下几方面的工作:1、提出一种新的微博社区发现算法Label-Influence-Algorithm(LIA)。LIA算法考虑到社交网络中人与人之间的关系,即一个人的朋友中大多数属于一个社区,自己也很大概率属于这个社区,同时借鉴社会学的研究成果,在发现微博社区时考虑到微博用户的影响力。微博中用户的粉丝数目并不能客观反映用户的影响力,还需要考虑关注数目、评论数和被提到的数量等,重点需要考虑如何排除“僵尸粉”(即主要是由机器来运营单纯只是为了增加粉丝的数量)。2、微博社区用户兴趣模型建模。由于微博消息限定为140个字,属于典型的短文本内容,所以单纯的对每条微博进行主题发现效果很差,而且也没有多大的实际意义。在一定的时间段内,微博用户的兴趣相对固定,而社区内的用户也具有相对固定的话题,由此可以发现微博用户的兴趣模型,并由此得到与用户兴趣相同的用户和其感兴趣的微博内容。对于每个微博用户,利用其所发表和转发微博的主题模型来表示其兴趣模型;对于每个社区,利用其社区成员所发表和转发微博的主题模型来表示其兴趣模型。3、构建微博信息检索系统。本系统主要有查询功能和推荐功能:在查询功能中,用户输入检索词,在经过查询扩展之后得到扩展词集,会得到与扩展词集相关的微博内容和微博用户;在推荐功能中,用户输入微博昵称,通过计算该昵称的微博用户兴趣模型概率分布与其他分布和社区内微博主题分布的相似程度,来得到与之兴趣相同的用户和可能感兴趣的微博内容。最后,对本文进行系统的总结,同时指出了下一步的研究重点。

全文目录


摘要  5-7
Abstract  7-11
第一章 绪论  11-15
  1.1 研究背景与意义  11-13
  1.2 本文的主要研究内容  13
  1.3 论文的组织结构  13-15
第二章 相关研究工作  15-26
  2.1 信息检索  15-19
    2.1.1 信息检索相关概念  15-18
    2.1.2 信息检索技术发展  18-19
  2.2 社区发现  19-21
  2.3 LDA主题模型  21-24
  2.4 微博主题发现  24-25
  2.5 微博信息检索系统  25
  2.6 小结  25-26
第三章 微博社区发现与微博社区用户兴趣模型  26-39
  3.1 微博社区发现  26-28
  3.2 微博社区发现实验  28-29
  3.3 微博社区用户兴趣模型发现  29-33
  3.4 微博兴趣模型发现实验  33-38
    3.4.1 数据集及预处理  33-34
    3.4.2 微博兴趣模型训练  34-37
    3.4.3 微博用户推荐和微博内容推荐  37-38
  3.5 小结  38-39
第四章 微博信息检索系统  39-47
  4.1 系统框架图  39-41
  4.2 微博信息检索系统展示  41-45
    4.2.1 查询功能  42-43
    4.2.2 推荐功能  43-45
  4.3 小结  45-47
第五章 总结和展望  47-49
  5.1 总结  47
  5.2 下一步工作  47-49
参考文献  49-52
攻读硕士学位期间参加的科研项目与公开发表的学术论文  52-53
致谢  53

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 生物医学领域检索系统查询扩展技术研究,TP391.3
  3. 面向海量邮件的检索系统研究与实现,TP393.098
  4. 风险视角下新浪微博融资行为研究,F49
  5. 当代广告舆论化现象研究,G206
  6. 微博:草根话语权的假象,G206
  7. 基于微博构建的公共领域研究,G206
  8. 基于论文关键词聚类的用户兴趣模型细化方法研究,TP391.3
  9. 基于Web的未登录词翻译技术研究,TP391.2
  10. 基于社会网络分析的藏文web链接结构研究,TP393.09
  11. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  12. 混合重叠社区发现研究及应用,D669.3
  13. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  14. 论微博的公民话语权,G206
  15. 论微博客中的网络公众聚集现象,G206
  16. 基于自然遗忘的个性化推荐算法研究,TP311.52
  17. 英汉可比较语料库的构建与应用研究,TP391.1
  18. 基于大众标注的个性化推荐系统研究,TP393.09
  19. 从都市报微博看都市报的数字化转型,G216.2
  20. 协同过滤推荐系统中关键问题研究与实现,TP311.52
  21. 能力导向终身学习个性化推荐系统学习者模型构建,G720

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com