学位论文 > 优秀研究生学位论文题录展示
支持Splog过滤的博客搜集系统研究与设计
作 者: 张晨
导 师: 卜佳俊
学 校: 浙江大学
专 业: 软件工程
关键词: 垃圾博客 支持向量机 特征提取 自动分类 博客搜索
分类号: TP311.52
类 型: 硕士论文
年 份: 2008年
下 载: 129次
引 用: 2次
阅 读: 论文下载
内容摘要
作为Web2.0的新兴网络应用,博客近年来正处于蓬勃发展和快速演变之中。博客范围内的海量博客信息极大地方便了人们的生活,使得人们以往的工作方式、学习方式甚至是生活方式都发生了改变。然而,博客空间的兴起也连带产生了一个副产品:垃圾博客(Splog)。垃圾博客的存在不仅是对网络带宽资源及存储资源极大的浪费和消耗,更重要的是它增加了网民获取高质量信息的难度,降低了用户进行网络搜索体验的满意度。本文的研究是建立在对其他网络垃圾(Web Spam)作弊技术进行分析的基础之上,运用了文本分类的技术思想,结合垃圾博客本身“链接工厂”和“广告博客”的本质属性,提出了两种特征提取算法模型:本地特征提取模型和全局特征提取模型,用以完成对垃圾博客的特征提取工作。随后,本文采用支持向量机作为实验中的自动分类算法,运用本文提出的算法模型对博客网页进行分析和特征提取,并以正确率、查准率、查全率对分类效果进行评价。最后,本文在开源搜索引擎Nutch基础上,实现了带有过滤垃圾博客功能的博客网页搜集系统。
|
全文目录
摘要 3-4 Abstract 4-9 第1章 绪论 9-19 1.1 课题背景 9-10 1.2 博客现状概述 10-13 1.2.1 博客的定义 11-12 1.2.2 博客的存在方式 12-13 1.3 垃圾博客特征概述 13-14 1.3.1 一般特征 13 1.3.2 链接工厂特征 13 1.3.3 广告博客特征 13-14 1.4 博客与博客搜索引擎 14-17 1.4.1 搜索引擎的工作原理 14-15 1.4.2 博客搜索和通用搜索的比较 15-17 1.5 本文的研究内容和章节安排 17-18 1.6 本章小结 18-19 第2章 文本检索与分类技术综述 19-30 2.1 基于文本的信息检索 19-22 2.1.1 全文检索 20 2.1.2 特征向量 20-21 2.1.3 向量模型 21-22 2.2 文本分类技术 22-29 2.2.1 自动分类背景与发展 23-24 2.2.2 文本分类的定义 24 2.2.3 文本分类的过程 24-25 2.2.4 常用分类算法 25-29 2.3 本章小结 29-30 第3章 垃圾博客特征提取算法研究 30-47 3.1 问题建模 30-32 3.1.1 博客搜索本质 31 3.1.2 速度要求 31-32 3.1.3 超链分析 32 3.2 网络垃圾作弊技术 32-36 3.2.1 搜索引擎与 Spamming 32-33 3.2.2 Web作弊分析 33-36 3.3 本地特征提取模型 36-37 3.3.1 博客文章文本分析 36-37 3.3.2 超链接描述文本分析 37 3.4 全局特征提取模型 37-46 3.4.1 链接属性 37-41 3.4.2 时间分布属性 41-46 3.5 本章小结 46-47 第4章 垃圾博客检测算法的实验与评价 47-61 4.1 实验数据 47 4.2 评价指标 47-49 4.3 实验策略 49-53 4.3.1 文本特征选取 49-50 4.3.2 文本特征表示 50 4.3.3 实验内容 50-53 4.4 实验实现 53-57 4.4.1 开源工具 53-54 4.4.2 实验流程 54-57 4.5 实验结果与讨论 57-60 4.6 本章小结 60-61 第5章 基于Nutch的博客搜集系统实现 61-70 5.1 开源搜索引擎Nutch 61-64 5.1.1 Nutch的使用方式 62 5.1.2 Nutch存储模块 62-63 5.1.3 Nutch插件机制 63-64 5.2 支持垃圾过滤的博客搜集系统设计与实现 64-69 5.2.1 系统需求 64 5.2.2 系统功能 64-65 5.2.3 数据库设计 65-67 5.2.4 系统架构 67-68 5.2.5 工作流程 68 5.2.6 软件环境 68-69 5.3 本章小结 69-70 第6章 总结与展望 70-72 6.1 本文工作总结 70 6.2 未来工作展望 70-72 参考文献 72-76 攻读硕士学位期间主要的研究成果 76-77 致谢 77-78 作者简历 78
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|