学位论文 > 优秀研究生学位论文题录展示
基于多结构特征的垃圾博客识别研究
作 者: 何苑
导 师: 谭红叶
学 校: 山西大学
专 业: 系统工程
关键词: 垃圾博客 多结构特征 特征提取 朴素贝叶斯 支持向量机
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 13次
引 用: 0次
阅 读: 论文下载
内容摘要
博客作为基于Internet的社交类应用,近年来保持了迅猛的发展势头,成为继Email、BBS和ICQ之后出现的第四种网络交流方式。博客在人际关系建立、维系和发展中发挥了越来越重要的作用,并已融入了人们的日常生活。随着博客影响力的不断加强,其副产品—垃圾博客也不断涌现。垃圾博客的大量出现已给博客的继续使用构成了一个很严重的威胁,不仅浪费存储资源和网络带宽,并通过增加搜索引擎的索引和计算开销,影响搜索结果的排名,从而降低了用户的搜索体验的满意度,影响用户获取高质量的信息。因此,如何精确的判断垃圾博客已成为信息检索领域亟待解决的难题之一,以及研究博客不能回避的一个问题。本文在已有的基于内容的垃圾博客特征提取基础上,提出了基于多结构特征对垃圾博客特征进行进一步提取的方法。本文从分析制造垃圾博客的作弊者的目的出发,分析了垃圾博客表现出的基于目录页和博文页面的各种结构特征,并对每种特征给出了特征提取的算法。从搜索引擎的结果中获取采集对象的地址,进而建立了更为真实和有针对性的垃圾博客识别数据集。提出了基于朴素贝叶斯和支持向量机分类方法的多结构特征垃圾博客识别模型。通过训练数据集进行参数设置,并使用测试数据集对识别模型进行检测。主要的研究内容包括以下几个方面:1.结合已有的研究,从基于作弊目的角度出发对垃圾博客表现出的结构特征进行了分析,并给出了特征提取算法。2.构建了博客采集系统。从搜索引擎的结果中获取采集对象的地址,采集用于垃圾博客识别的博客数据集,进行了预处理,并根据垃圾博客的定义对采集到的博客进行了人为的区分。3.提出了基于多结构特征的垃圾博客识别方法,并将上述识别方法分别与朴素贝叶斯方法和SVM结合构建了识别系统模型,利用训练数据集对模型训练后,使用测试数据集进行检测,将实验结果与基于内容的方法的结果进行了对比分析。
|
全文目录
中文摘要 8-9 ABSTRACT 9-11 第一章 引言 11-17 1.1 研究背景 11-13 1.2 研究现状与分析 13-15 1.2.1 博客的相关概念 13-14 1.2.2 垃圾博客的定义 14 1.2.3 垃圾博客识别研究现状 14-15 1.3 论文的主要内容 15 1.4 论文结构 15-17 第二章 垃圾博客的结构特征提取 17-25 2.1 基于作弊目的分析的作弊特征 17-18 2.2 垃圾博客特征分析与提取 18-25 2.2.1 基于博客目录页的特征 18-20 2.2.2 基于博文页面的特征 20-25 第三章 博客采集系统的构建和数据的预处理 25-33 3.1 待采集博文地址列表的获取 25-26 3.2 博客采集系统的构建 26-30 3.2.1 博客采集系统工作流程示意图 26-27 3.2.2 博客采集系统关键技术介绍 27-28 3.2.3 博客采集系统的实现 28-30 3.3 数据预处理及文本表示 30-33 3.3.1 数据预处理 30-31 3.3.2 文本表示 31-33 第四章 基于朴素贝叶斯和SVM的垃圾博客识别模型 33-37 4.1 多结构特征的结合 33 4.2 基于多结构特征的朴素贝叶斯分类模型 33-35 4.2.1 多结构特征和朴素贝叶斯分类法的结合 34-35 4.2.2 基于朴素贝叶斯分类方法的识别模型 35 4.3 基于多结构特征的支持向量机分类模型 35-37 4.3.1 支持向量机 35-36 4.3.2 基于SVM分类方法的识别模型 36-37 第五章 实验结果与分析 37-41 5.1 实验数据集 37 5.2 评价指标 37-38 5.3 实验结果与分析 38-41 5.3.1 准确率 38 5.3.2 特征项的个数对识别性能的影响 38-39 5.3.3 训练集规膜对识别性能的影响 39-41 第六章 本文工作总结和展望 41-43 参考文献 43-47 攻读学位期间取得的研究成果 47-49 致谢 49-51 个人简况及联系方式 51-55
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|