学位论文 > 优秀研究生学位论文题录展示

邮件通联关系网络中重要节点及社团发现技术研究

作 者: 杨慧洁
导 师: 罗军勇
学 校: 解放军信息工程大学
专 业: 计算机科学与技术
关键词: 邮件通联关系网络 话题识别 重要节点发现 社团发现 K-means
分类号: TP393.098
类 型: 硕士论文
年 份: 2010年
下 载: 143次
引 用: 1次
阅 读: 论文下载
 

内容摘要


邮件数据中蕴含着大量潜在有用的信息,邮件通联关系网络可以映射到社会网络,邮件通联关系可以间接反映人与人之间的关系;邮件通信内容可以体现邮箱用户的兴趣、关注的话题等。如何利用邮件中的有用信息,发现邮件通联关系网络的重要节点和社团是目前邮件数据挖掘领域中重要的研究方向。本文对邮件通联关系网络进行了网络构建、话题识别、重要节点发现和社团发现等方面的研究,主要工作包括以下几个方面:1.邮件通联关系网络属性描述。对邮件数据进行分析,提取邮件通信实体间的通信关系构建邮件通联关系网络,对相关属性进行描述。其中提出了一种基于改进K-means的聚类技术自动识别话题的算法,对结合主题字段和正文内容表示的邮件进行聚类,得到节点的话题属性。通过计算F值进行比较,改进算法的聚类效果比传统的K-means算法提高了16.2%。2.重要节点发现。论文针对邮件通联关系网络的特性提出两个新的重要性度量指标:改进的聚集系数指标和EmailRank指标。针对单一指标评估具有一定程度片面性的考虑,采用综合评估方法发现重要节点。在公开Enron邮件数据集上进行实验,证明综合评估方法优于单指标及基于图熵理论发现重要节点的方法。3.以重要节点为中心的子网抽取。提出四种基于结构的子网抽取方法,通过分析和实验验证:基于边权值的子网抽取方法结合边连接的紧密程度以及层次关系,抽取的子网结构紧密。4.对子网进行基于内容的社团发现。提出一种基于边内容聚类的社团发现算法,对结构紧密的邮件子网进行社团发现,在人工标注的数据集上验证该社团算法的效果,并在Enron邮件数据集进行实验,得到结构和内容均与重要节点关系紧密的社团。5.构建邮件通联关系网络挖掘分析原型系统。对重要节点发现、子网抽取和社团发现等模块进行设计和实现。最后,对本文工作进行了总结,并对邮件通联关系网络分析和挖掘进行了展望,提出了下一步的研究方向和构想。

全文目录


摘要  11-12
ABSTRACT  12-14
第一章 绪论  14-25
  1.1 课题研究背景及意义  14-15
  1.2 网络挖掘处理相关技术综述  15-23
    1.2.1 文本信息处理相关技术  16-17
    1.2.2 话题识别技术  17-18
    1.2.3 重要节点发现  18-19
    1.2.4 社团发现  19-23
  1.3 本文的研究内容  23-24
  1.4 本文的组织结构  24-25
第二章 邮件通联关系网络构建  25-35
  2.1 电子邮件数据相关介绍  25-27
    2.1.1 电子邮件数据的优势  25
    2.1.2 电子邮件数据格式介绍  25-26
    2.1.3 电子邮件数据解析  26-27
  2.2 邮件通联关系网络相关分析  27-28
    2.2.1 邮件地址的通联关系分析  27-28
    2.2.2 邮件通联关系网络描述  28
  2.3 邮件通联关系网络相关属性描述  28-32
    2.3.1 节点相关属性描述  29-31
    2.3.2 边的相关属性描述  31-32
    2.3.3 网络的属性描述  32
  2.4 网络的社团特征描述及评估  32-34
    2.4.1 网络的结构社团描述及评估  33-34
    2.4.2 网络的内容社团描述及评估  34
  2.5 本章小结  34-35
第三章 邮件通联关系网络中的话题识别技术研究  35-44
  3.1 邮件数据的文本表示  35-37
    3.1.1 问题提出  35
    3.1.2 邮件正文和Subject字段的特征词提取  35-36
    3.1.3 结合邮件正文和主题字段的邮件表示  36
    3.1.4 利用Ew-IDw计算特征词的权值  36-37
  3.2 一种改进的话题识别算法  37-39
    3.2.1 基于最小相似性的聚类中心选择算法  37-38
    3.2.2 结合邮件正文和主题的邮件地址话题识别算法  38-39
  3.3 实验  39-43
    3.3.1 实验及结果  39-41
    3.3.2 实验结果评价  41-43
  3.4 本章小结  43-44
第四章 基于TOPSIS理论的邮件通联关系网络重要节点发现  44-53
  4.1 相关概念介绍及分析  44-45
    4.1.1 邮件通联关系网络重要节点  44
    4.1.2 重要节点发现  44-45
    4.1.3 重要节点具备的特征  45
  4.2 重要节点评估指标的选择及描述  45-47
    4.2.1 重要节点评估指标的选择  45-46
    4.2.2 重要节点评估指标的描述  46-47
  4.3 基于TOPSIS理论综合评估发现重要节点  47-49
    4.3.1 综合评价目标函数  47
    4.3.2 指标预处理  47-48
    4.3.3 基于TOPSIS的综合评价  48-49
    4.3.4 重要节点发现步骤  49
  4.4 实验  49-52
    4.4.1 实验语料  49-50
    4.4.2 评价方案  50
    4.4.3 实验结果及分析  50-52
  4.5 本章小结  52-53
第五章 基于重要节点的邮件子网抽取  53-64
  5.1 基于网络结构的子网抽取  53-59
    5.1.1 基于广度优先边遍历的子网抽取  53-54
    5.1.2 基于深度优先边遍历的子网抽取  54-55
    5.1.3 基于边的权值抽取子网  55-57
    5.1.4 基于划分的子网抽取  57-59
  5.2 子网抽取方法分析  59-60
    5.2.1 子网抽取方法比较  59
    5.2.2 子网抽取结果评判标准  59-60
  5.3 实验  60-63
    5.3.1 实验及结果  61
    5.3.2 实验分析  61-63
  5.4 本章小结  63-64
第六章 基于边聚类的邮件子网社团发现  64-75
  6.1 社团发现相关分析  64-65
    6.1.1 社团的存在性及研究价值  64-65
    6.1.2 社团发现过程  65
  6.2 邮件子网边属性的提取  65-66
    6.2.1 邮件子网边上的邮件处理  65
    6.2.2 边的特征提取  65-66
  6.3 基于边聚类的社团发现算法  66-69
    6.3.1 利用向量空间模型表示待聚类的边  66-67
    6.3.2 初始聚类中心的确定  67-68
    6.3.3 基于边聚类的社团发现算法  68
    6.3.4 社团描述  68-69
  6.4 实验  69-74
    6.4.1 算法评估实验  69-72
    6.4.2 Enron数据实验  72-73
    6.4.3 社团描述  73-74
  6.5 本章小结  74-75
第七章 原型系统设计与实现  75-85
  7.1 系统设计框架  75-76
  7.2 原型系统实现  76-79
    7.2.1 数据库设计与存储  76-77
    7.2.2 模块框架设计与实现  77-79
  7.3 实现结果  79-84
    7.3.1 邮件通联关系网络构建及节点话题描述  79-81
    7.3.2 发现重要节点  81-82
    7.3.3 发现以重要节点为核心的社团  82-84
  7.4 本章小结  84-85
结束语  85-87
参考文献  87-93
作者简历攻读硕士学位期间完成的主要工作  93-94
致谢  94

相似论文

  1. K-means聚类优化算法的研究,TP311.13
  2. 基于遗传算法和粗糙集的聚类算法研究,TP18
  3. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  4. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  5. K-means算法在网店代购点选择中的应用研究,F224
  6. 高校图书馆管理系统的个性化服务的设计与实现,TP311.52
  7. 基于粒子滤波的目标跟踪算法研究及DirectShow实现,TP391.41
  8. 基于特征提取的视频场景分类技术研究,TP391.41
  9. 针对包含异常值数据的优化K-MEANS聚类算法,TP311.13
  10. K-means聚类算法的研究,TP311.13
  11. 福建地税系统的数据仓库系统的设计与实现,TP311.13
  12. 基于专利分析的竞争对手分类系统研究,G306
  13. 一种结合万有引力的高光谱遥感影像无监督分类算法,O314
  14. 复杂机场监控环境下的行为检测,TP277
  15. 基于数据挖掘的入侵检测模型研究,TP393.08
  16. 基于像素级多特征的图像分割方法研究,TP391.41
  17. 大型不确定数据库的有效聚类,TP311.13
  18. 指纹图像分割中的设备互操作性问题研究,TP391.41
  19. Audio-only教育游戏中虚拟声定位的研究,G434
  20. 无线传感网络层次型拓扑控制应用研究,TN929.5

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com