学位论文 > 优秀研究生学位论文题录展示
三维复合型垃圾邮件过滤技术的研究与实现
作 者: 许志佴
导 师: 邹恒明
学 校: 上海交通大学
专 业: 计算机软件与理论
关键词: 反垃圾邮件 贝叶斯过滤 协同过滤 个人邮件网络
分类号: TP393.098
类 型: 硕士论文
年 份: 2008年
下 载: 81次
引 用: 0次
阅 读: 论文下载
内容摘要
在垃圾邮件与反垃圾邮件的斗争中,邮件过滤技术是主要手段。当前的邮件过滤技术基本上是基于邮件内容的机器学习,包括支持向量机、K-NN、Boosting、Winnow、贝叶斯过滤等。这些技术存在的问题是:要么召回率等指标不能令人满意,要么训练时间长、误报率高。本文提出并实现了一种三维复合型垃圾邮件过滤系统。该系统采用基于下列三种过滤技术的复合过滤模型:基于用户反馈的协同过滤技术、基于个人邮件网络的白名单过滤技术和自适应贝叶斯过滤技术。协同过滤技术用来过滤群发垃圾邮件,其中使用了改进的Nilsimsa摘要算法判断相似邮件,并采用了显式和隐式反馈收集技术。白名单过滤技术用来过滤群发合法邮件,依据所构建的个人邮件网络的群体相关性进行判断。贝叶斯过滤技术充分使用了前两种过滤的输出结果进行训练,通过特征提取方法、多次迭代训练方法等进行自适应过滤。实验结果分析表明,与当前最普遍使用的简单贝叶斯过滤结果相比,复合过滤系统的召回率提高了4.26个百分点,正确率提高了0.27个百分点,并且用户因垃圾邮件带来的损失可以降低15%以上。
|
全文目录
摘要 5-6 ABSTRACT 6-11 1 引言 11-15 1.1 垃圾邮件背景 11-13 1.2 反垃圾邮件技术 13-14 1.3 本文内容安排 14-15 2 垃圾邮件过滤技术现状 15-27 2.1 非机器学习的过滤技术 15-17 2.1.1 启发式过滤 15 2.1.2 质询应答 15-16 2.1.3 黑名单白名单 16-17 2.1.4 流量分析 17 2.2 机器学习的过滤技术 17-20 2.2.1 支持向量机 17 2.2.2 近邻分类法 17-18 2.2.3 加权组合分类器 18 2.2.4 线性分类法 18-19 2.2.5 贝叶斯过滤 19-20 2.3 协同过滤技术 20-22 2.4 其它过滤方法 22-23 2.4.1 服务器端过滤 22-23 2.4.2 基于硬件的过滤 23 2.5 对比实验 23-24 2.6 相关研究领域 24-25 2.7 发展趋势 25-26 2.8 本章小结 26-27 3 三维复合邮件过滤模型 27-45 3.1 模型层次图 28-29 3.2 基于用户反馈的协同过滤技术 29-33 3.2.1 邮件摘要 30-31 3.2.2 反馈收集 31-32 3.2.3 协同库 32-33 3.3 基于个人邮件网络的白名单过滤技术 33-36 3.3.1 社会网络 33 3.3.2 个人邮件网络 33-35 3.3.3 白名单自动生成 35-36 3.4 自适应贝叶斯过滤技术 36-43 3.4.1 特征提取方法 37-38 3.4.2 多次迭代训练方法 38-39 3.4.3 过滤器的自适应过程 39-40 3.4.4 修正值的计算 40-43 3.5 模型特点 43-44 3.5.1 误报率低 43 3.5.2 过滤过程自动化 43 3.5.3 训练时间短 43-44 3.5.4 针对群发邮件 44 3.6 本章小结 44-45 4 系统设计与实现 45-59 4.1 设计目标 45 4.2 系统架构 45-46 4.3 详细工作流程 46-57 4.3.1 协同库管理 47-49 4.3.2 协同过滤 49 4.3.3 白名单过滤 49-50 4.3.4 贝叶斯过滤 50-54 4.3.5 反馈收集 54-55 4.3.6 贝叶斯训练 55-57 4.4 系统环境 57-58 4.5 本章小结 58-59 5 实验及结果分析 59-69 5.1 实验语料库 59-61 5.2 评价指标 61-63 5.3 实验结果分析 63-68 5.4 本章小结 68-69 6 全文总结 69-70 6.1 主要结论 69 6.2 研究展望 69-70 致谢 70-71 攻读硕士学位期间已发表的论文 71-72 参考文献 72-75
|
相似论文
- 基于自然遗忘的个性化推荐算法研究,TP311.52
- 基于蚁群算法的移动商务个性化推荐体系研究,TP391.3
- 基于协同过滤的用户兴趣发现,TP391.3
- 基于信息型模型的音乐推荐算法,TP391.3
- 基于社会化标签体系的个性化推荐引擎技术研究,TP391.3
- 基于GPU的图书推荐系统研究与实现,TP391.3
- 基于C2C电子商务模式下商品推荐系统应用研究,F724.6
- 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
- 基于用户兴趣和浏览行为的个性化推荐技术研究,TP391.3
- 基于特征向量的个性化推荐算法研究,TP391.3
- 基于语用情境的资源推荐研究及应用,TP391.3
- 动态推荐技术的研究及在个性化电子警务中的应用,D631.1
- “总串分并”四层反垃圾邮件过滤系统研究,TP393.098
- 跨系统个性化服务中隐私保持问题研究,TP393.08
- Agent电子商务推荐系统下协同过滤技术研究,F713.36
- 基于双信息源的协同过滤算法及其应用研究,TP301.6
- 基于AJAX的个性化图书馆信息系统的设计与实现,TP311.52
- 基于协同过滤的主动推荐系统关键技术研究,TP311.52
- 基于协同过滤的电子商务个性化推荐算法研究,F713.36
- 基于协同过滤的个性化推荐算法研究,TP301.6
- 基于点击数据分析的个性化搜索引擎研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|