学位论文 > 优秀研究生学位论文题录展示

基于学习的恶意网页智能检测系统

作 者: 王松
导 师: 胡雪蕾
学 校: 南京理工大学
专 业: 模式识别与智能系统
关键词: 恶意代码 机器学习 分类器 Javascript 网络爬虫
分类号: TP393.08
类 型: 硕士论文
年 份: 2011年
下 载: 99次
引 用: 4次
阅 读: 论文下载
 

内容摘要


随着互联网的高速发展,网络资源的丰富,互联网用户很多时间都在浏览各类网页,然而大量的网页含有恶意代码,在人们浏览网页的时候,恶意代码就会在不被察觉的情况下侵入用户系统,使用户计算机系统受到感染和破坏。本文简要介绍了恶意代码的相关知识,对网页恶意代码的工作原理进行了分析。我们知道网页呈现的过程,实质就是浏览器执行代码的过程,那么只要在这些正常的代码中间加入几段特意编写的恶意代码,网页就成了具有破坏力的恶意网页了。现在商用的反病毒软件采用的都是“特征码”检测技术,但它只能检测已知的恶意代码。采用机器学习的方法,利用已知恶意代码和正常代码,对未知代码是否是恶意代码进行检测,不仅可以检测出已知的恶意代码,而且也能很好的检测出未知的恶意代码。本文采用机器学习中的BP算法和决策树算法来训练分类器,分类器的性能与样本特征的表征能力有很大关系,我们通过恶意代码与正常代码的比较,总结出了14个典型的特征,用这14个特征和样本标签作为输入来训练分类器。本系统使用网络爬虫抓取网页,利用数据获取模块收集和标记样本(Javascript代码段),并提取特征;用提取的特征作为输入,通过分类器训练与验证模块训练和测试分类器。通过上述的研究和实践,证明了基于机器学习的恶意代码检测技术的高效性和准确性,同时也验证了我们定义的14个特征具有的代表性和影响力,进而为网页恶意性检测提供技术支持。

全文目录


摘要  3-4
Abstract  4-7
1 绪论  7-13
  1.1 研究背景  7-10
    1.1.1 互联网安全概况  7-9
    1.1.2 恶意代码的定义  9
    1.1.3 恶意代码的传播  9-10
  1.2 恶意代码分类  10-12
  1.3 本文主要研究工作  12
  1.4 本文组织结构  12-13
2 网页恶意代码  13-21
  2.1 Web概述  13
  2.2 网页脚本语言  13-16
    2.2.1 JavaScript语言  13-15
    2.2.2 VBScript语言  15-16
  2.3 网页脚本语言的安全  16-17
    2.3.1 ActiveX  16
    2.3.2 Windows脚本宿主  16-17
  2.4 网页恶意代码  17-19
    2.4.1 网页恶意代码分类  18
    2.4.2 网页恶意代码攻击原理  18-19
  2.5 恶意代码检测技术  19-20
    2.5.1 基于签名的特征码检测  19
    2.5.2 启发式检测  19-20
    2.5.3 行为式检测  20
    2.5.4 完整性检测  20
    2.5.5 虚拟机检测  20
  2.6 本章小结  20-21
3 机器学习  21-32
  3.1 机器学习概念和模型  21-22
    3.1.1 机器学习概念  21
    3.1.2 机器学习模型  21-22
  3.2 机器学习常用方法  22-24
  3.3 分类算法  24-31
    3.3.1 神经网络分类算法  24-28
    3.3.2 决策树分类算法  28-31
  3.4 本章小结  31-32
4 基于学习的恶意网页智能检测系统  32-44
  4.1 设计目标与框架  32
  4.2 数据获取  32-37
    4.2.1 网页抓取工具  33-35
    4.2.2 样本获取  35-37
  4.3 样本特征选择与提取  37-43
    4.3.1 文本的表示  37-38
    4.3.2 样本特征选择  38-41
    4.3.3 样本特征提取  41-43
  4.4 分类器设计  43
  4.5 本章小结  43-44
5 实验与结果  44-59
  5.1 实验目的  44
  5.2 实验数据  44-45
  5.3 分类器性能指标  45-46
  5.4 实验环节  46-56
    5.4.1 OpenCV简介  46-47
    5.4.2 实验方法  47
    5.4.3 神经网络分类器参数确定  47-51
    5.4.4 决策树分类器参数确定  51-56
  5.5 实验结果  56-58
    5.5.1 测试集上分类器性能验证  56
    5.5.2 训练集上分类器性能验证  56-57
    5.5.3 分类器与杀毒软件对比  57-58
  5.6 本章小结  58-59
6 总结  59-61
致谢  61-62
参考文献  62-64

相似论文

  1. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  2. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  3. 基于主动方式的恶意代码检测技术研究,TP393.08
  4. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  5. 英汉命名实体翻译方法研究,TP391.2
  6. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  7. 生物医学缩略语消歧,R-5
  8. 基于数据分布特征的文本分类研究,TP391.1
  9. 人脸检测算法的FPGA设计与实现,TP391.41
  10. 人类抗原肽载体结合力预测,R392.1
  11. 基于大字符集脱机手写体汉字识别方法研究,TP391.41
  12. 基于Adaboost的人脸检测算法研究与实现,TP391.41
  13. 基于李群机器学习算法的智能布线,TN710
  14. 基于AdaBoost算法的人脸检测方法研究,TP391.41
  15. Web挂马检测系统的设计与实现,TP393.08
  16. 学习表达式的映射机制研究,TP181
  17. 军事港口目标分类平台的设计与实现,TP751
  18. Widget平台插件扩展的研究与实现,TP311.52
  19. 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
  20. 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
  21. 基于多移动Agent的大规模网络恶意代码防御机制的研究,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络安全
© 2012 www.xueweilunwen.com