学位论文 > 优秀研究生学位论文题录展示
基于文本聚类和语料库的信誉维度发现研究
作 者: 李迪
导 师: 赵学锋
学 校: 华中科技大学
专 业: 管理科学与工程
关键词: 信誉维度 文本聚类 文本评论 词义相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 25次
引 用: 0次
阅 读: 论文下载
内容摘要
现有的主流在线零售网站普遍采用了一些简单的在线信誉系统来试图解决网络交易中信任缺失的问题,虽然起到了一定作用,但大多存在着不同商品共用同一评价维度、信誉评价模型维度区分度不高的情况,不能准确表达用户的真实选择意愿。针对上述问题,本文从用户的文本评论本身出发,使用客观的聚类方法发掘客户的真实感受,从定性的客户评论研究在线信誉系统,以期能够更加准确地给出用户所关注的信誉评价维度。本文在回顾前人的相关研究之后,采用文本聚类分析的方法对客户评论内容进行了分析。本研究编写了Asp.net程序抓取原始数据,使用Visual C++,Java,Matlab等语言对数据进行了分析、聚类。经过抓取文本评论数据,分词,生成特征项集合,编码标注,确定词义相似度计算方法,机器聚类,对聚类簇进行分析等步骤,得出了一个更加合理的信誉评价维度。其中,根据研究的具体情况,本文对TFIDF处理的具体步骤做出了改进,把词义相似度应用于聚类分析,并且在DBSCAN算法中加入了对聚类簇进行TFIDF过滤的内容。经过对原始的信誉评价维度和聚类分析得出的信誉评价维度进行对比,本文发现原有的信誉评价模型确实遗漏了一些比较重要的评价维度,而且有些评价维度不够全面、清晰,而使用聚类分析的方法分析文本评论数据,可以从用户评论中找出用户真正关心的信誉维度。研究结果证明,聚类分析做为一种新的信誉维度确立方法,可以尽量减少人为地干预,避免主观影响干扰分析结果,确保能够从用户评论本身出发,科学地、合理地得出客观的信誉评价维度。
|
全文目录
摘要 4-5 ABSTRACT 5-8 1 绪论 8-17 1.1 研究背景与意义 8-10 1.2 国内外研究现状 10-14 1.3 论文框架与主要研究内容 14-17 2 文本聚类的关键技术和主要方法 17-23 2.1 特征项选取方法 17-19 2.2 文本的数值表示 19-21 2.3 聚类分析方法 21-23 3 客户评论数据的获取和预处理 23-29 3.1 数据获取 23-27 3.2 数据预处理 27-29 4 基于词义相似度的文本聚类过程 29-39 4.1 特征项的选择 29-31 4.2 编码标注和词义相似度的计算 31-33 4.3 数据聚类 33-36 4.4 结果分析及信誉维度发现 36-39 5 全文总结与研究展望 39-42 5.1 全文总结 39-41 5.2 研究展望 41-42 致谢 42-43 参考文献 43-47 附录1 特征项子集级编码标注表 47-50 附录2 攻读硕士学位期间发表论文目录 50-51 附录3 攻读硕士学位期间参加及完成的科研课题 51
|
相似论文
- 基于句法特征的代词消解方法研究,TP391.1
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 面向海量数据的云存储系统实现与应用研究,TP333
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- LSA与SOM相结合的文本聚类算法应用研究,TP391.1
- 基于情感分析的新闻浏览平台关键技术研究,TP391.1
- 基于客户评论的在线零售商信誉影响因素研究,F713.36
- 基于文本聚类的在线零售商信誉维度研究,F724.6
- 基于文本相似度的中文文本聚类的研究,TP391.1
- 搜索引擎返回结果聚类技术的研究与实现,TP391.3
- 基于群体智能的文本聚类技术研究,TP391.1
- 基于Vague集的网络舆情研究,TP393.09
- 基于概念格的K-Means算法研究及应用,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|