学位论文 > 优秀研究生学位论文题录展示

基于在线学习算法的恶意网页检测系统

作 者: 王庆
导 师: 丁宇新
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 恶意网页 检测 机器学习 在线学习 半监督学习
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 139次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网已经成为我们生活中不可缺少的工具,我们每天都会使用浏览器上网浏览网页,但是接入网络的计算机随时都处在被远程攻击的危险当中。当浏览器访问到恶意的Web服务器时,服务器就会返回含有攻击的恶意网页到用户的计算机中。如果恶意攻击成功,则Web服务器就可以在用户的计算机上安装任意程序,比如病毒、木马。所以,恶意网站严重威胁了用户机器的安全,我们需要设计一个恶意网页检测系统保护用户上网的安全。检测恶意网页的方法有客户端蜜罐、静态检测算法和基于机器学习的检测方法。客户端蜜罐通过浏览器主动与Web服务器交互,同时监视系统中的进程、注册表、文件等的状态,如果在浏览器与Web服务器交互后,系统里出现了非法的状态变化,就认为该Web服务器是恶意的。静态检测算法主要是利用模式匹配、静态代码分析和启发式规则等静态算法来检测网页代码。客户端蜜罐检测方法比静态检测算法的准确率要高,不会将良性网页误判为恶意网页。不过客户端蜜罐的缺点也很明显,那就是它比静态检测算法检测速度慢很多,也需要使用更多系统资源等等。静态检测算法虽然检测速度很快,但误判率比较高,无法发现未知攻击。机器学习的检测方法主要是提取网页的特征,通过样本训练出分类器来检测恶意网页。机器学习的检测方法不仅检测速度快,而且具有很好的预测能力。其中在线学习方法与批量学习方法相比,更适合恶意网页检测系统。本文通过提取网页URL特征,利用在线学习的方法,训练出高效的分类器,并用分类器实现了一个实时的恶意网页检测系统。随后通过实验结果的分析,发现了系统的不足之处,并提出了改进的方法,使系统效果进一步提升,进而设计出了半监督的学习系统。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-16
  1.1 课题背景与意义  9-10
  1.2 恶意网页检测技术的研究现状及分析  10-15
    1.2.1 恶意网页检测技术  10
    1.2.2 客户端蜜罐  10-12
    1.2.3 静态检测算法  12-14
    1.2.4 机器学习  14-15
  1.3 本文的主要研究内容和结构  15-16
第2章 机器学习的相关理论知识  16-21
  2.1 机器学习的基本概念  16
  2.2 常用的分类算法  16-19
    2.2.1 朴素贝叶斯(Naive Bayes)  16-17
    2.2.2 支持向量机(Support Vector Machine,SVM)  17-18
    2.2.3 决策树(Decision Tree)  18-19
  2.3 基于机器学习的恶意网页检测技术  19-20
  2.4 本章小结  20-21
第3章 基于在线学习算法的恶意网页检测技术  21-34
  3.1 网页URL 特征提取  21-26
  3.2 在线学习算法  26-27
    3.2.1 感知器(Perceptron)算法  26
    3.2.2 PA(Passive-Aggressive)算法  26-27
    3.2.3 CW(Confidence-Weighted)算法  27
  3.3 特征提取方法的改进  27-28
  3.4 半监督学习模型  28-29
  3.5 系统设计  29-33
    3.5.1 URL 特征提取  30-31
    3.5.2 训练分类器  31-32
    3.5.3 浏览器插件  32-33
  3.6 本章小结  33-34
第4章 实验结果分析与改进  34-44
  4.1 实验数据采集  34-37
  4.2 系统实验环境  37
  4.3 实验结果与分析  37-40
  4.4 改进特征提取后效果  40-42
  4.5 自学习阈值的设定  42-43
  4.6 本章小结  43-44
结论  44-45
参考文献  45-49
攻读学位期间发表的论文及其它成果  49-51
致谢  51

相似论文

  1. 基于DSP的离焦信号同步采集与处理技术研究,TH741
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. HID灯整流效应的研究,TM923.32
  4. 双传感器图像联合目标检测及系统实现研究,TP391.41
  5. 基于嵌入式图像处理单元的运动目标跟踪系统研究,TP391.41
  6. 移动机器人视觉检测和跟踪研究,TP242.62
  7. 拟南芥胱硫醚-γ-合成酶(D-AtCGS)基因在大肠杆菌中的表达及抗血清制备,Q943.2
  8. 高职课程改革研究,G712.3
  9. 中国玉米南方锈菌的分子遗传多样性和超微结构研究,S435.131.4
  10. 基于模型的水稻根系可视化研究,S511
  11. 切花菊转DdICE1基因研究,S682.11
  12. 蝴蝶兰(Phalaenopsis)脱毒快繁关键技术及其生理基础的研究,S682.31
  13. cPL双抗体夹心ELISA检测犬急性胰腺炎方法的建立与应用,S858.292
  14. 湖羊早期妊娠诊断免疫胶体金层析试纸条的初步研制,S858.26
  15. 乳腺钙化检测算法的研究与实现,R816.4
  16. 合肥市手足口病流行状况及高危人群危险因素分析,R725.1
  17. 井下机车区域定位检测系统的设计,TD524.3
  18. 动态心电监护系统及心电信号处理方法的研究,TH772.2
  19. 受小窑区威胁综采面安全开采技术研究与应用,TD752.2
  20. 可重复使用的骨生长检测盒的动物体内实验,R329
  21. 联合检测乳腺癌肿瘤标志物的临床意义,R737.9

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com