学位论文 > 优秀研究生学位论文题录展示

基于用户访问行为分析的网站分类研究

作 者: 贾梦青
导 师: 王宗敏
学 校: 郑州大学
专 业: 计算机应用技术
关键词: 用户行为分析 HTTP数据流 网站分类 决策树
分类号: TP393.092
类 型: 硕士论文
年 份: 2009年
下 载: 113次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着Internet和WWW的迅猛发展,网站的数量也越来越多,而且网站包含了海量的、异构的、动态的信息资源,利用数据挖掘中的分类技术对这些网站进行组织归纳,从而有效地管理资源、改善网站服务满足用户需求,已日益成为一个重要的研究课题。目前的网站分类研究是以文本分类为基础的,需要分析网页内容,且以单个网页为处理对象,计算量大,不适合处理大规模流数据。另一方面,网站正从“以站点为中心”朝着“以用户为中心”的方向发展,而这种基于文本的分类方法从网页的静态内容出发,分类结果不能体现用户的行为特点。针对传统的基于内容的网站分类方法存在的问题,本文提出了一种基于用户访问行为分析的网站分类方法,该方法把具有相同URL前缀的网页的集合(即URL主机名相同的网站)作为一个处理对象,降低了数据规模;其次采集河南省教育科研计算机网真实的HTTP协议业务流数据作为分析对象,从用户对网站的访问行为中提取用于网站分类的特征,不需要逐个分析网页内容;最后针对省级区域性网络数据规模大的特点,采用可伸缩性决策树归纳算法,从河南省教育科研计算机网用户访问的网站中提取出新闻类网站、资源共享类网站和通讯类网站。与传统的网站分类方法相比,本文提出的方法更适合处理大规模数据,且得到的分类结果包含了用户的潜在行为模式,更能反映用户的兴趣趋向和行为规律,从而使网管人员有针对性的优化网络,满足用户对主流应用的需求。

全文目录


摘要  3-4
Abstract  4-9
第1章 引言  9-14
  1.1 研究背景和意义  9-10
  1.2 研究现状  10-12
  1.3 主要研究内容  12-13
  1.4 论文结构  13-14
第2章 数据挖掘相关理论  14-25
  2.1 数据挖掘  14-18
    2.1.1 数据挖掘的概念  14
    2.1.2 数据挖掘的特点及应用  14-15
    2.1.3 数据挖掘的常用技术  15-18
  2.2 基于Web挖掘的网页分类  18-22
    2.2.1 Web挖掘的概念和分类  18-20
    2.2.2 Web文本分类  20-22
  2.3 对Web文本分类提出问题  22-24
  2.4 本章小结  24-25
第3章 基于用户访问行为分析的网站分类特征提取  25-41
  3.1 用户行为分析  25-27
    3.1.1 用户行为分析在各个领域的应用  25-26
    3.1.2 用户网络行为的特点及研究意义  26-27
    3.1.3 用户的HTTP行为  27
  3.2 数据采集  27-31
    3.2.1 准备知识  27-30
    3.2.2 数据采集  30-31
  3.3 数据预处理  31-35
    3.3.1 数据清理  31-32
    3.3.2 用户识别  32-33
    3.3.3 相似 URL合并  33-35
  3.4 网站类别  35-38
    3.4.1 网站类别的选择  35-37
    3.4.2 各类别网站的用户访问行为特点  37-38
  3.5 基于用户访问行为分析的网站分类特征提取  38-40
  3.6 本章小结  40-41
第4章 可伸缩性决策树归纳  41-51
  4.1 决策树  41-44
    4.1.1 决策树算法的优点  41
    4.1.2 决策树的生成过程和使用过程  41-42
    4.1.3 决策树算法的主要研究内容  42-44
  4.2 决策树算法的分析与比较  44-46
    4.2.1 早期的决策树分类算法  45
    4.2.2 近代改进的决策树分类算法  45-46
    4.2.3 几种算法的评价  46
  4.3 可伸缩性决策树归纳  46-50
    4.3.1 最佳划分的选择  47-48
    4.3.2 可伸缩性决策树算法 BOAT  48-50
  4.4 本章小结  50-51
第5章 基于用户访问行为的网站分类器测试  51-60
  5.1 实验数据准备  51-54
  5.2 数据统计分析  54-56
    5.2.1 从不同角度进行数据统计  54-55
    5.2.2 数据统计计算  55-56
  5.3 实验结果及分析  56-59
    5.3.1 实验结果  56-58
    5.3.2 实验分析  58-59
  5.4 本章小结  59-60
第6章 总结与展望  60-63
  6.1 总结  60-61
  6.2 展望  61-63
参考文献  63-67
致谢  67-68
附录: 攻读硕士学位期间发表的学术论文  68

相似论文

  1. 基于支持向量机的故障诊断方法研究,TP18
  2. 教学质量评估数据挖掘系统设计与开发,TP311.13
  3. 基于DPI的即时通信软件监测系统的研究与实现,TN915.09
  4. 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
  5. 基于粗糙集理论的决策树分类算法与应用研究,TP18
  6. 基于核心示例集的属性约简方法研究,O159
  7. 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
  8. 基于改进的ID3算法的蛋白质纯化方法研究,Q51
  9. 五种决策树算法的比较研究,TP311.13
  10. 信用卡风险管理技术及利润预测模型,F224
  11. 汉语语音合成系统的改进与实现,TN912.33
  12. 中国15岁以上人群乙型肝炎免疫预防的决策分析模型研究,R392.1
  13. 广州市乙肝相关疾病经济负担及1~14岁人群乙肝疫苗接种策略研究,R186
  14. 基于数据挖掘的故障诊断方法研究,TP311.13
  15. 数据挖掘在研究生调剂中的应用研究,TP311.13
  16. 基于决策树分类算法的Web文本分类研究,TP391.1
  17. 基于决策树的短期负荷预测系统研究与实现,TM715
  18. 航次知识发现及其应用研究,F552.6
  19. 某型主动雷达制导导弹的通用自动测试设备研究,TJ760.6
  20. 南方针叶林遥感信息提取研究,TP79
  21. 中国乙肝疫苗接种效果追踪决策研究,R186

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com