学位论文 > 优秀研究生学位论文题录展示
基于在线学习算法的恶意网页检测系统
作 者: 王庆
导 师: 丁宇新
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 恶意网页 检测 机器学习 在线学习 半监督学习
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 139次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网已经成为我们生活中不可缺少的工具,我们每天都会使用浏览器上网浏览网页,但是接入网络的计算机随时都处在被远程攻击的危险当中。当浏览器访问到恶意的Web服务器时,服务器就会返回含有攻击的恶意网页到用户的计算机中。如果恶意攻击成功,则Web服务器就可以在用户的计算机上安装任意程序,比如病毒、木马。所以,恶意网站严重威胁了用户机器的安全,我们需要设计一个恶意网页检测系统保护用户上网的安全。检测恶意网页的方法有客户端蜜罐、静态检测算法和基于机器学习的检测方法。客户端蜜罐通过浏览器主动与Web服务器交互,同时监视系统中的进程、注册表、文件等的状态,如果在浏览器与Web服务器交互后,系统里出现了非法的状态变化,就认为该Web服务器是恶意的。静态检测算法主要是利用模式匹配、静态代码分析和启发式规则等静态算法来检测网页代码。客户端蜜罐检测方法比静态检测算法的准确率要高,不会将良性网页误判为恶意网页。不过客户端蜜罐的缺点也很明显,那就是它比静态检测算法检测速度慢很多,也需要使用更多系统资源等等。静态检测算法虽然检测速度很快,但误判率比较高,无法发现未知攻击。机器学习的检测方法主要是提取网页的特征,通过样本训练出分类器来检测恶意网页。机器学习的检测方法不仅检测速度快,而且具有很好的预测能力。其中在线学习方法与批量学习方法相比,更适合恶意网页检测系统。本文通过提取网页URL特征,利用在线学习的方法,训练出高效的分类器,并用分类器实现了一个实时的恶意网页检测系统。随后通过实验结果的分析,发现了系统的不足之处,并提出了改进的方法,使系统效果进一步提升,进而设计出了半监督的学习系统。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-16 1.1 课题背景与意义 9-10 1.2 恶意网页检测技术的研究现状及分析 10-15 1.2.1 恶意网页检测技术 10 1.2.2 客户端蜜罐 10-12 1.2.3 静态检测算法 12-14 1.2.4 机器学习 14-15 1.3 本文的主要研究内容和结构 15-16 第2章 机器学习的相关理论知识 16-21 2.1 机器学习的基本概念 16 2.2 常用的分类算法 16-19 2.2.1 朴素贝叶斯(Naive Bayes) 16-17 2.2.2 支持向量机(Support Vector Machine,SVM) 17-18 2.2.3 决策树(Decision Tree) 18-19 2.3 基于机器学习的恶意网页检测技术 19-20 2.4 本章小结 20-21 第3章 基于在线学习算法的恶意网页检测技术 21-34 3.1 网页URL 特征提取 21-26 3.2 在线学习算法 26-27 3.2.1 感知器(Perceptron)算法 26 3.2.2 PA(Passive-Aggressive)算法 26-27 3.2.3 CW(Confidence-Weighted)算法 27 3.3 特征提取方法的改进 27-28 3.4 半监督学习模型 28-29 3.5 系统设计 29-33 3.5.1 URL 特征提取 30-31 3.5.2 训练分类器 31-32 3.5.3 浏览器插件 32-33 3.6 本章小结 33-34 第4章 实验结果分析与改进 34-44 4.1 实验数据采集 34-37 4.2 系统实验环境 37 4.3 实验结果与分析 37-40 4.4 改进特征提取后效果 40-42 4.5 自学习阈值的设定 42-43 4.6 本章小结 43-44 结论 44-45 参考文献 45-49 攻读学位期间发表的论文及其它成果 49-51 致谢 51
|
相似论文
- 基于DSP的离焦信号同步采集与处理技术研究,TH741
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- HID灯整流效应的研究,TM923.32
- 双传感器图像联合目标检测及系统实现研究,TP391.41
- 基于嵌入式图像处理单元的运动目标跟踪系统研究,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 拟南芥胱硫醚-γ-合成酶(D-AtCGS)基因在大肠杆菌中的表达及抗血清制备,Q943.2
- 高职课程改革研究,G712.3
- 中国玉米南方锈菌的分子遗传多样性和超微结构研究,S435.131.4
- 基于模型的水稻根系可视化研究,S511
- 切花菊转DdICE1基因研究,S682.11
- 蝴蝶兰(Phalaenopsis)脱毒快繁关键技术及其生理基础的研究,S682.31
- cPL双抗体夹心ELISA检测犬急性胰腺炎方法的建立与应用,S858.292
- 湖羊早期妊娠诊断免疫胶体金层析试纸条的初步研制,S858.26
- 乳腺钙化检测算法的研究与实现,R816.4
- 合肥市手足口病流行状况及高危人群危险因素分析,R725.1
- 井下机车区域定位检测系统的设计,TD524.3
- 动态心电监护系统及心电信号处理方法的研究,TH772.2
- 受小窑区威胁综采面安全开采技术研究与应用,TD752.2
- 可重复使用的骨生长检测盒的动物体内实验,R329
- 联合检测乳腺癌肿瘤标志物的临床意义,R737.9
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|