学位论文 > 优秀研究生学位论文题录展示

不良内容网页过滤技术的研究

作 者: 孙凯
导 师: 魏海平
学 校: 辽宁石油化工大学
专 业: 计算机应用技术
关键词: 信息过滤 文本分类 特征项提取 文本内容抽取 模式匹配
分类号: TP391.3
类 型: 硕士论文
年 份: 2012年
下 载: 48次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet技术的迅猛发展,网络上的信息呈现出来爆炸式地增长,不单单是信息总量越来越多,信息种类也呈现出缤纷复杂的状况。互联网已经成为重要的信息载体和传播渠道,并且日益融入到了人们的日常学习、工作和生活中。在这些存在的大量信息中,既存在对用户有益的信息,同时也存在着各种各样的无用的信息,甚至有些是不良信息。对于研究人员来说,如何才能既准确,又快速地过滤掉网页上的不良信息就显得至关重要。在Internet中,文本是网页信息最重要的组成部分,它几乎存在于每一张网页中,也是最能够表达信息内容的部分,我们可以通过阅读文本来了解网页的主要内容,因此对于文本过滤的研究就显得非常重要,本文研究的重点是网页文本过滤。面对当前普遍采用单一过滤方法过滤不良信息的缺陷和不足,本文采用两层过滤方法,将健康的信息推荐给用户,同时将不良的信息屏蔽掉。在第一层过滤系统中采用基于关键词匹配方法,这样做可以在第一层识别出健康网页,并将其推荐给用户,大大减少到达第二层过滤系统的网页数量,从而增加了过滤速度。在第二层过滤系统中采用文本分类方法对第一层过滤系统送过来的网页进行更加详细的判断,进一步判断是否是不良网页。论文通过对目前文本过滤方法研究与分析,设计出一套实用的网页文本过滤系统,使其能够满足当前网页文本过滤的需求。本文在每次选取特征项的时候,只选取那些对判断文本类别作用较大的特征词,本文针对原有X2统计量方法中存在的两个问题,提出一种改进X2统计量方法,并取得了良好的效果。本文提出了一种基于节点文本密度的网页文本内容抽取方法,该方法把每一篇网页表示为一棵DOM树,基于DOM树结构基础上,通过计算DOM树中每个节点的文本密度值来断定哪个部分为网页的主要内容块。本文在BM算法模式匹配的基础上,提出一种BM2C模式匹配方法,该方法通过综合BMH算法和BMHS算法,从而减少模式匹配的比较次数和模式匹配消耗的时间。

全文目录


摘要  4-6
ABSTRACT  6-11
1 绪论  11-19
  1.1 课题的研究背景与意义  11-15
  1.2 国内外研究现状  15-16
  1.3 网页文本过滤技术的应用  16-17
  1.4 本文的研究内容与成果  17-19
2 信息过滤综述  19-27
  2.1 信息过滤的概念  19-20
  2.2 信息过滤与信息检索  20-21
  2.3 信息过滤系统的分类  21-23
    2.3.1 根据操作方法分类  21-22
    2.3.2 根据操作位置分类  22
    2.3.3 按照信息过滤方法分类  22
    2.3.4 按照用户获取信息方法分类  22-23
  2.4 信息过滤系统模型  23-25
    2.4.1 布尔模型(Boolean model)  23
    2.4.2 向量空间模型(vector space model)  23-25
    2.4.3 概率模型(probability model)  25
  2.5 信息过滤系统性能  25-26
  2.6 本章小结  26-27
3 网页文本过滤技术  27-38
  3.1 网页文本内容抽取  27-30
  3.2 中文分词  30-33
    3.2.1 基于词典的中文分词方法  30-31
    3.2.2 基于统计的分词方法  31-32
    3.2.3 基于规则的分词方法  32-33
  3.3 停用词处理  33
  3.4 特征项提取  33-35
    3.4.1 文档频率(Document Frequency:DF)  33-34
    3.4.2 信息增益(Information Gain:IG)  34
    3.4.3 互信息(Mutual Information:MI)  34-35
    3.4.4 X~2统计量(Chi-square Statistic:CHI)  35
  3.5 文本分类方法  35-37
    3.5.1 Navie Bayes(朴素贝叶斯方法)  35-36
    3.5.2 KNN 方法(K 近邻方法)  36-37
    3.5.3 SVM 方法(支持向量机)  37
  3.6 分类阈值  37
  3.7 本章小结  37-38
4 本文中文本过滤主要方法的设计  38-54
  4.1 基于文本密度值的网页内容抽取方法  38-43
    4.1.1 文本密度(TEXT DENSITY:TD)  38-41
    4.1.2 网页文本内容抽取方法  41-43
    4.1.3 实验结果和结果分析  43
  4.2 BM2C 模式匹配方法  43-50
    4.2.1 BM 及其改进模式匹配方法  43-46
    4.2.2 BM2C 模式匹配方法  46-48
    4.2.3 实验结果和结果分析  48-50
  4.3 改进 X~2统计量文本特征项提取方法  50-53
    4.3.1 X~2统计量存在的问题及其改进  50-51
    4.3.2 实验结果与结果分析  51-53
  4.4 本章小结  53-54
5 过滤系统的设计  54-65
  5.1 本文过滤系统模块  54-62
    5.1.1 第一层基于关键词匹配过滤系统模型  54-57
    5.1.2 第二层基于内容智能过滤系统模型  57-62
  5.2 实验结果及分析  62-64
    5.2.1 实验环境  62
    5.2.2 实验文本集的建立  62-63
    5.2.3 实验结果及结果分析  63-64
  5.3 本章小结  64-65
6 总结和展望  65-67
  6.1 工作总结  65
  6.2 下一步需要做的工作  65-67
符号说明  67-68
参考文献  68-72
致谢  72-73
攻读学位期间发表的学术论文目录  73

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于查询接口的Deep Web模式匹配方法研究,TP311.13
  4. 基于数据分布特征的文本分类研究,TP391.1
  5. 基于本体的食品投诉文档文本分类研究,TP391.1
  6. 基于本体的中文科技论文分类研究,TP391.1
  7. 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
  8. 一个基于模式匹配的轻量级网络入侵检测系统设计与实现,TP393.08
  9. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  10. 基于粗糙集理论的文本分类研究,TP18
  11. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  12. 集合多标签文本分类研究,TP391.1
  13. 面向不确定感知数据的异常数据检测技术,TN929.5
  14. 基于贝叶斯过滤的文本分类技术的研究与实现,TP393.098
  15. 基于Snort入侵检测系统的改进系统的设计与实现,TP393.08
  16. 基于内容的中文垃圾短信分类技术的研究,TP391.1
  17. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  18. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  19. 基于Hadoop的文本分类研究,TP391.1
  20. 基于词语权重的中文文本分类算法的研究,TP391.1
  21. 中文文本分类特征提取方法的研究与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com