学位论文 > 优秀研究生学位论文题录展示

基于文本聚类和语料库的信誉维度发现研究

作　者: 李迪
导　师: 赵学锋
学　校: 华中科技大学
专　业: 管理科学与工程
关键词: 信誉维度文本聚类文本评论词义相似度
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 25次
引　用: 0次
阅　读: 论文下载

内容摘要

现有的主流在线零售网站普遍采用了一些简单的在线信誉系统来试图解决网络交易中信任缺失的问题,虽然起到了一定作用,但大多存在着不同商品共用同一评价维度、信誉评价模型维度区分度不高的情况,不能准确表达用户的真实选择意愿。针对上述问题,本文从用户的文本评论本身出发,使用客观的聚类方法发掘客户的真实感受,从定性的客户评论研究在线信誉系统,以期能够更加准确地给出用户所关注的信誉评价维度。本文在回顾前人的相关研究之后,采用文本聚类分析的方法对客户评论内容进行了分析。本研究编写了Asp.net程序抓取原始数据,使用Visual C++,Java,Matlab等语言对数据进行了分析、聚类。经过抓取文本评论数据,分词,生成特征项集合,编码标注,确定词义相似度计算方法,机器聚类,对聚类簇进行分析等步骤,得出了一个更加合理的信誉评价维度。其中,根据研究的具体情况,本文对TFIDF处理的具体步骤做出了改进,把词义相似度应用于聚类分析,并且在DBSCAN算法中加入了对聚类簇进行TFIDF过滤的内容。经过对原始的信誉评价维度和聚类分析得出的信誉评价维度进行对比,本文发现原有的信誉评价模型确实遗漏了一些比较重要的评价维度,而且有些评价维度不够全面、清晰,而使用聚类分析的方法分析文本评论数据,可以从用户评论中找出用户真正关心的信誉维度。研究结果证明,聚类分析做为一种新的信誉维度确立方法,可以尽量减少人为地干预,避免主观影响干扰分析结果,确保能够从用户评论本身出发,科学地、合理地得出客观的信誉评价维度。

全文目录

摘要  4-5
ABSTRACT  5-8
1 绪论  8-17
  1.1 研究背景与意义  8-10
  1.2 国内外研究现状  10-14
  1.3 论文框架与主要研究内容  14-17
2 文本聚类的关键技术和主要方法  17-23
  2.1 特征项选取方法  17-19
  2.2 文本的数值表示  19-21
  2.3 聚类分析方法  21-23
3 客户评论数据的获取和预处理  23-29
  3.1 数据获取  23-27
  3.2 数据预处理  27-29
4 基于词义相似度的文本聚类过程  29-39
  4.1 特征项的选择  29-31
  4.2 编码标注和词义相似度的计算  31-33
  4.3 数据聚类  33-36
  4.4 结果分析及信誉维度发现  36-39
5 全文总结与研究展望  39-42
  5.1 全文总结  39-41
  5.2 研究展望  41-42
致谢  42-43
参考文献  43-47
附录1 特征项子集级编码标注表  47-50
附录2 攻读硕士学位期间发表论文目录  50-51
附录3 攻读硕士学位期间参加及完成的科研课题  51

基于文本聚类和语料库的信誉维度发现研究

内容摘要

全文目录

相似论文