学位论文 > 优秀研究生学位论文题录展示
基于学习的恶意网页智能检测系统
作 者: 王松
导 师: 胡雪蕾
学 校: 南京理工大学
专 业: 模式识别与智能系统
关键词: 恶意代码 机器学习 分类器 Javascript 网络爬虫
分类号: TP393.08
类 型: 硕士论文
年 份: 2011年
下 载: 99次
引 用: 4次
阅 读: 论文下载
内容摘要
随着互联网的高速发展,网络资源的丰富,互联网用户很多时间都在浏览各类网页,然而大量的网页含有恶意代码,在人们浏览网页的时候,恶意代码就会在不被察觉的情况下侵入用户系统,使用户计算机系统受到感染和破坏。本文简要介绍了恶意代码的相关知识,对网页恶意代码的工作原理进行了分析。我们知道网页呈现的过程,实质就是浏览器执行代码的过程,那么只要在这些正常的代码中间加入几段特意编写的恶意代码,网页就成了具有破坏力的恶意网页了。现在商用的反病毒软件采用的都是“特征码”检测技术,但它只能检测已知的恶意代码。采用机器学习的方法,利用已知恶意代码和正常代码,对未知代码是否是恶意代码进行检测,不仅可以检测出已知的恶意代码,而且也能很好的检测出未知的恶意代码。本文采用机器学习中的BP算法和决策树算法来训练分类器,分类器的性能与样本特征的表征能力有很大关系,我们通过恶意代码与正常代码的比较,总结出了14个典型的特征,用这14个特征和样本标签作为输入来训练分类器。本系统使用网络爬虫抓取网页,利用数据获取模块收集和标记样本(Javascript代码段),并提取特征;用提取的特征作为输入,通过分类器训练与验证模块训练和测试分类器。通过上述的研究和实践,证明了基于机器学习的恶意代码检测技术的高效性和准确性,同时也验证了我们定义的14个特征具有的代表性和影响力,进而为网页恶意性检测提供技术支持。
|
全文目录
摘要 3-4 Abstract 4-7 1 绪论 7-13 1.1 研究背景 7-10 1.1.1 互联网安全概况 7-9 1.1.2 恶意代码的定义 9 1.1.3 恶意代码的传播 9-10 1.2 恶意代码分类 10-12 1.3 本文主要研究工作 12 1.4 本文组织结构 12-13 2 网页恶意代码 13-21 2.1 Web概述 13 2.2 网页脚本语言 13-16 2.2.1 JavaScript语言 13-15 2.2.2 VBScript语言 15-16 2.3 网页脚本语言的安全 16-17 2.3.1 ActiveX 16 2.3.2 Windows脚本宿主 16-17 2.4 网页恶意代码 17-19 2.4.1 网页恶意代码分类 18 2.4.2 网页恶意代码攻击原理 18-19 2.5 恶意代码检测技术 19-20 2.5.1 基于签名的特征码检测 19 2.5.2 启发式检测 19-20 2.5.3 行为式检测 20 2.5.4 完整性检测 20 2.5.5 虚拟机检测 20 2.6 本章小结 20-21 3 机器学习 21-32 3.1 机器学习概念和模型 21-22 3.1.1 机器学习概念 21 3.1.2 机器学习模型 21-22 3.2 机器学习常用方法 22-24 3.3 分类算法 24-31 3.3.1 神经网络分类算法 24-28 3.3.2 决策树分类算法 28-31 3.4 本章小结 31-32 4 基于学习的恶意网页智能检测系统 32-44 4.1 设计目标与框架 32 4.2 数据获取 32-37 4.2.1 网页抓取工具 33-35 4.2.2 样本获取 35-37 4.3 样本特征选择与提取 37-43 4.3.1 文本的表示 37-38 4.3.2 样本特征选择 38-41 4.3.3 样本特征提取 41-43 4.4 分类器设计 43 4.5 本章小结 43-44 5 实验与结果 44-59 5.1 实验目的 44 5.2 实验数据 44-45 5.3 分类器性能指标 45-46 5.4 实验环节 46-56 5.4.1 OpenCV简介 46-47 5.4.2 实验方法 47 5.4.3 神经网络分类器参数确定 47-51 5.4.4 决策树分类器参数确定 51-56 5.5 实验结果 56-58 5.5.1 测试集上分类器性能验证 56 5.5.2 训练集上分类器性能验证 56-57 5.5.3 分类器与杀毒软件对比 57-58 5.6 本章小结 58-59 6 总结 59-61 致谢 61-62 参考文献 62-64
|
相似论文
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 基于主动方式的恶意代码检测技术研究,TP393.08
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 英汉命名实体翻译方法研究,TP391.2
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 生物医学缩略语消歧,R-5
- 基于数据分布特征的文本分类研究,TP391.1
- 人脸检测算法的FPGA设计与实现,TP391.41
- 人类抗原肽载体结合力预测,R392.1
- 基于大字符集脱机手写体汉字识别方法研究,TP391.41
- 基于Adaboost的人脸检测算法研究与实现,TP391.41
- 基于李群机器学习算法的智能布线,TN710
- 基于AdaBoost算法的人脸检测方法研究,TP391.41
- Web挂马检测系统的设计与实现,TP393.08
- 学习表达式的映射机制研究,TP181
- 军事港口目标分类平台的设计与实现,TP751
- Widget平台插件扩展的研究与实现,TP311.52
- 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
- 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
- 基于多移动Agent的大规模网络恶意代码防御机制的研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络安全
© 2012 www.xueweilunwen.com
|