学位论文 > 优秀研究生学位论文题录展示

WEB日志数据挖掘的研究和实现

作 者: 冯卫华
导 师: 佘堃;王惠斌
学 校: 电子科技大学
专 业: 软件工程
关键词: 数据挖掘 日志挖掘 ID3算法 Web日志分析工具 XML语言
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 201次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术和计算机网络技术的不断成熟和发展,数据库技术虽然已日渐成熟并被广泛应用,但其只是基本的信息存储和管理的方式,大量有价值的数据被隐藏在数据中而不能被人所使用。数据挖掘作为一门新兴的研究领域应运而生。数据挖掘技术被称为未来信息处理的主要技术之一。依据数据挖掘数据在Web中的数据源的不同,可以把Web挖掘分为Web结构挖掘、WEB访问信息挖掘、Web内容挖掘。Web日志挖掘的过程一般分为三个阶段:日志数据预处理、模式识别分析阶段和挖掘算法的实施。XML全称为可扩展标记语言,它以一种开放的、自我描述的方式定义数据结构,能够明晰的对数据的结构进行表示,从而体现出数据与数据之间的关系,XML为异构的数据源提供了一种统一结构的描述方法。ID3算法是在数据挖掘技术中经常使用的经典算法,其主要应用于分类挖掘的实现中,产生的总是最小的树形结构,通过验证实例证明本文设计的系统对日志文件的的事物分析具有很好的效果。本系统的主要创新之处即是在于采用XML规则文件技术,对日志数据进行预处理,进行规则的匹配。其具有很强的灵活性,表现在用户可以根据自己的习惯偏好对XML规则文件进行配置,产生适合自身特点的日志规则,从而生成用户感兴趣的新的日志文件。在本设计系统可以创建六种针对不同的日志文件的规则:通用日志文件规则、syslog日志文件规则、Weblogic规则、log4j-xml规则、oracle-alter日志规则、jboss规则。根据不同的日志文件类型,本系统可以产生相对应的规则文件。规则文件以XML格式存在,根据规则文件对输入的日志文件进行相关的处理。本系统的创新点即在于采用日志挖掘算法与XML技术结合,运用XML技术的自描述和结构描述功能以及其对数据的通用表示方式,实现对日志文件进行分析和统计。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-17
  1.1 研究背景  9-13
  1.2 国内外研究现状  13-15
  1.3 Web 日志挖掘技术存在的问题  15
  1.4 论文的主要工作  15
  1.5 论文的组织结构  15-16
  1.6 本章小结  16-17
第二章 数据挖掘与Web 挖掘  17-30
  2.1 数据挖掘  17-21
    2.1.1 数据挖掘概述  17-18
    2.1.2 数据挖掘的功能  18-20
    2.1.3 数据挖掘的知识表示  20-21
  2.2 Web 挖掘技术  21-29
    2.2.1 Web 挖掘概述  21-22
    2.2.2 Web 结构挖掘  22-24
    2.2.3 Web 内容挖掘  24-29
  2.3 本章小结  29-30
第三章 Web 日志挖掘和XML 技术  30-43
  3.1 Web 日志挖掘概论  30-31
  3.2 Web 日志挖掘过程  31-39
    3.2.1 Web 日志挖掘的过程描述  31-32
    3.2.2 Web 日志数据采集  32-34
    3.2.3 日志数据预处理  34-37
    3.2.4 模式发现  37-38
    3.2.5 模式应用  38-39
  3.3 XML 技术  39-42
    3.3.1 XML 技术概要  39-41
    3.3.2 XML 文件解析  41-42
    3.3.3 XML 技术与Web 日志挖掘  42
  3.4 本章小结  42-43
第四章 Web 日志挖掘算法  43-55
  4.1 Web 日志挖掘模式发现算法概述  43-44
  4.2 分类模式算法  44-53
    4.2.1 ID3 决策树算法  44-52
    4.2.2 改进ID3 算法  52-53
  4.3 本章小结  53-55
第五章 Web 日志统计系统设计与实现  55-66
  5.1 Web 日志统计工具设计  55-58
  5.2 Web 日志统计分析系统的实现  58-65
    5.2.1 Web 日志统计分析系统GUI 模块  58-60
    5.2.2 日志文件记录类模块实现  60-61
    5.2.3 XML 文件解析模块的实现  61-62
    5.2.4 LogEvent 处理模块的实现  62-63
    5.2.5 ID3 算法实现关键代码  63-65
  5.3 本章小结  65-66
第六章 Web 日志统计系统实例验证  66-70
  6.1 Web 日志统计系统实例验证  66-69
  6.2 本章小结  69-70
第七章 总结与展望  70-72
  7.1 总结  70-71
  7.2 展望  71-72
致谢  72-73
参考文献  73-75
作者攻硕期间取得的成果  75-76

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 基于变异粒子群的聚类算法研究,TP18
  6. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于数据挖掘的税务稽查选案研究,F812.42
  9. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  10. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  11. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  12. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  13. 教学质量评估数据挖掘系统设计与开发,TP311.13
  14. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  15. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  16. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  17. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  18. 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
  19. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  20. 高校毕业生就业状况监测系统研究,G647.38
  21. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com