学位论文 > 优秀研究生学位论文题录展示
基于微博客的需求检测与性格分析的研究
作 者: 王亮
导 师: 张俐
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 需求检测 分类 性格分析 五大性格
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 1次
引 用: 0次
阅 读: 论文下载
内容摘要
随着社交网络的流行,微博客已成为人们日常生活中分享信息的重要方式,用户以140左右的文字更新信息。2012年12月底,新浪微博的注册用户已超过5亿,每天活跃用户数达4600多万,因此每天产生的数据是巨大的,如何从这些海量的数据中挖掘出有价值的信息是很有必要性和挑战性的任务。本文从两个方面研究了从微博中挖掘有用的信息。首先,本文研究了基于新浪微博的需求检测。文中通过定义一个四元组来表示用户的需求信息,然后将原问题看作是一个二元分类问题,即能识别出或不能识别出四元组。文中以特定话题形式的微博为模板,抽取了基于词的、基于距离和基于话题的特征,分类算法通过支持向量机来实现。实验结果表明,基于词的和基于距离的特征组合,对于自动识别需求信息有较好的结果。其次,本文研究了微博上的用户性格分析。传统的性格分析都是以常规文本为研究对象,微博与常规文本有很大不同,用户的随意性更强,真实性也会更高。性格分析以“五大性格”模型为研究基础,将预测未知用户的性格看作一个多元分类问题。分类算法采用决策树,特征选择主要包括基于词的特征、LIWC特征和MRC特征。实验结果表明,相比于直接基于词的特征,LIWC的MRC特征要好很多。本文中的研究主要都是为了方便企业给用户做更个性化的推荐。在检测到用户的需求信息后,公司就可以推送相关的产品或服务等,在推送的时候还可以考虑客户的性格因素。因此,本文的研究工作具有很好的实际应用意义。
|
全文目录
摘要 5-6 Abstract 6-7 目录 7-9 第1章 绪论 9-13 1.1 研究背景 9-10 1.2 本文的研究动机 10 1.3 国内外研究现状 10-11 1.4 本文组织安排 11-13 第2章 基础研究工作 13-29 2.1 数据预处理 13-14 2.1.1 数据下载 13 2.1.2 分词 13-14 2.1.3 去除停用词 14 2.2 词典的构造 14-15 2.3 词性标记 15-18 2.3.1 隐马尔可夫模型 15-16 2.3.2 条件随机场 16-18 2.4 分类算法 18-23 2.4.1 决策树 18 2.4.2 贝叶斯分类 18-20 2.4.3 支持向量机 20-23 2.4.4 分类算法的比较 23 2.5 聚类简介 23-25 2.5.1 K均值聚类算法 24 2.5.2 LDA 24-25 2.6 文本需求检测 25-26 2.6.1 任务定义 25 2.6.2 需求检测分析 25-26 2.7 传统性格分析 26-27 2.8 本章小结 27-29 第3章 需求检测 29-47 3.1 背景知识介绍 29-32 3.1.1 Zipf定律 30 3.1.2 几种简单的需求检测方法 30-32 3.2 基准系统的搭建 32-39 3.2.1 任务定义 33-34 3.2.2 数据下载 34-35 3.2.3 数据处理 35-36 3.2.4 实验方法 36-38 3.2.5 实验评估 38-39 3.3 改进的方法 39-43 3.3.1 距离特征 39-41 3.3.2 上下文特征 41 3.3.3 主题特征 41-43 3.4 本章总结 43-47 第4章 性格分析 47-61 4.1 任务定义 47-48 4.1.1 背景意义 47 4.1.2 五大性格介绍 47-48 4.2 数据下载 48-49 4.3 实验方法 49-56 4.3.1 基于词的特征 51 4.3.2 LIWC特征 51-52 4.3.3 MRC心理学特征 52 4.3.4 皮尔逊系数 52-56 4.4 实验分析 56-58 4.4.1 基于所有词的实验 56-57 4.4.2 基于LIWC和MRC的实验 57 4.4.3 基于皮尔逊系数的实验 57-58 4.5 本章小结 58-61 第5章 工作总结与展望 61-63 5.1 工作总结 61-62 5.2 未来工作展望 62-63 参考文献 63-67 致谢 67-69 攻读硕士期间参加的科研项目 69
|
相似论文
- K公司计划及预测改进对于合理库存配置的研究,F224
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 基于词义及语义分析的问答技术研究,TP391.1
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 上下文相关的词汇复述研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于图像的路面破损识别,TP391.41
- 计算智能在数字化卷烟叶组配方中的应用研究,TS44
- 基于中国土壤系统分类的土壤类型和界线确定研究,S155
- 弯孢属种分子鉴定体系的建立及其在疑难种上的应用,Q949.32
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 基于土壤系统分类的土壤调查方法研究,S155
- 西藏生防芽孢杆菌鉴定及其脂肽化合物分析,S476.1
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
- 基于连锁图的QTL综合分析方法研究,S562
- 积极情绪对3-5岁幼儿认知灵活性的影响,B844.1
- 垘原资明四种交往分类在高中语文教学中的运用,G633.3
- 基于分治法的聚类方法研究,TP311.13
- 中条山麻栎群落数量生态研究,Q948
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|