学位论文 > 优秀研究生学位论文题录展示
微博自动分类方法研究及应用
作 者: 江斌
导 师: 芦鹏宇
学 校: 哈尔滨工业大学
专 业: 管理科学与工程
关键词: 微博用户兴趣 微博分类 特征模式库
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 87次
引 用: 0次
阅 读: 论文下载
内容摘要
微博是近几年兴起的一种网络交流与信息分享平台,中国微博网民注册用户已经超过3亿,由于微博自身的传播性质以及信息内容产生的速度,每个用户都越来越需要应对信息泛滥的考验,同时每个用户微博主页上的信息杂乱无章,平台本身没有设置为微博进行自动分类的功能,使用户不能第一时间查看自己最关注的、最感兴趣的微博。本文将对微博文本进行分类研究,并在此基础上,结合微博用户兴趣对微博分类进行应用分析。首先通过对国内外文本分类领域的研究现状和研究成果进行分析,总结微博分类与文本分类两者之间异同点,并针对这些异同点进行对比分析,从而找出解决微博文本分类中存在问题的方法。然后通过对大量的微博数据进行观察分析,归纳总结微博的类型、文本结构以及微博编辑的语言特点,并在此基础上对微博文本的相关要素进行定义及完成对微博数据模型的构建,接下来设计了微博数据的收集与存储策略,并最终确定微博文本的分词方法。其次通过分析四大门户网站内类别的分布情况,基于四大门户网站内的频道栏目信息以及新浪微博平台内的类别层次结构对微博文本的类别体系进行定义与说明,在此类别体系的基础上利用网页文本构建相应类别的类别特征模式库,并根据特征库内的结构及词汇特点,设计特征库调整算法用以剔除不同特征库内的重复词及不相关的词汇,以使每个特征库内包含的特征词与类别名称一致。最后通过提出一种微博文本特征词与特征库内特征词相匹配的分类算法对微博进行自动类别标识,利用微博数据来验证分类算法的有效性和可行性,并在分类算法的基础上结合用户使用微博的兴趣来对微博分类进行应用性研究。本文的研究成果将会为用户创造巨大的应用价值,并会促使微博平台背后的企业积极地更新技术手段以更好的服务用户和社会。
|
全文目录
摘要 3-4 ABSTRACT 4-7 第1章 绪论 7-15 1.1 论文研究的背景 7-8 1.2 论文研究的意义 8-9 1.3 国内外研究现状与分析 9-14 1.3.1 国外研究现状 9-11 1.3.2 国内研究现状 11-13 1.3.3 微博分类概述 13-14 1.4 主要研究内容 14-15 第2章 微博数据模型建立及预处理 15-28 2.1 微博数据模型 15-20 2.1.1 微博文本分析 15-18 2.1.2 微博文本语言特点 18-20 2.1.3 微博文本要素定义 20 2.2 数据的来源与收集 20-24 2.2.1 数据来源 21 2.2.2 数据收集 21-22 2.2.3 数据存储 22-24 2.3 微博文本分词方法 24-27 2.3.1 分词方法概述 24-26 2.3.2 微博分词 26-27 2.4 本章小结 27-28 第3章 微博特征模式库的建立 28-39 3.1 微博类别参考体系建立 28-34 3.1.1 门户网站类别标准 28-32 3.1.2 微博类别体系建立 32-34 3.2 特征模式库建立 34-36 3.2.1 特征模式库定义 34-35 3.2.2 特征模式库构建方法 35-36 3.3 特征模式库的调整 36-38 3.4 本章小结 38-39 第4章 微博分类器的构建与应用 39-52 4.1 分类器的构建 39-43 4.1.1 分类函数定义 39-41 4.1.2 要素系数判别实验 41-43 4.2 分类器性能评价 43-46 4.2.1 判别系数验证 43-44 4.2.2 分类准确率评价 44-46 4.3 微博分类方法应用 46-51 4.3.1 微博用户兴趣分析 47 4.3.2 用户兴趣集合建立 47-48 4.3.3 兴趣特征词提取 48-50 4.3.4 微博呈现分析 50-51 4.4 本章小结 51-52 结论 52-53 参考文献 53-58 致谢 58
|
相似论文
- 面向中文微博的社会网络分析及应用,TP391.1
- 基于数据挖掘的微博用户兴趣群体发现与分类-以新浪微博为例,TP393.092
- 国内植物园网站分析与上海植物园网站开发,TP393.092
- 模型驱动的网站开发技术研究,TP393.092
- 基于ASP技术电子商务网站设计与实现,TP393.092
- 基于Flex与J2EE的族谱网的设计与实现,TP393.092
- 基于Web日志挖掘的高校图书馆门户网站建设研究,TP393.092
- 面向读者服务的民办高校图书馆网站建设,TP393.092
- 论网页设计中平面视觉元素的传达,TP393.092
- 基于热点网站内容分析的超链接提取研究,TP393.092
- 点的魅力,TP393.092
- 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
- 基于Web数据挖掘的网页优化设计应用研究,TP393.092
- 门户网站Web页面防篡改技术的研究与实现,TP393.092
- 基于贝叶斯理论的网页木马检测技术研究,TP393.092
- 基于BHO技术的恶意网页行为检测技术研究与实现,TP393.092
- SNS社交网站模式及技术,TP393.092
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 服饰时尚信息网站界面的视觉效果研究,TP393.092
- 基于段落指纹的大规模近似网页检测算法研究,TP393.092
- 手机网页浏览器中触摸手势的应用研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|