学位论文 > 优秀研究生学位论文题录展示

智能搜索中的中文网页分类研究

作　者: 邓科
导　师: 张永
学　校: 兰州理工大学
专　业: 计算机应用技术
关键词: 智能搜索网页分类网页净化层次分类
分类号: TP393.092
类　型: 硕士论文
年　份: 2011年
下　载: 51次
引　用: 0次
阅　读: 论文下载

内容摘要

随着互联网技术突飞猛进的发展,网络规模正以指数级增长。为了更加快捷的找到所需的信息,而不被庞大无序且结构类型多样的信息海洋所淹没,智能搜索已成为人们获取信息的主要途径。然而,当前的全文搜索引擎虽然提供了信息检索服务,但是自身存在着种种缺陷导致了诸如信息孤岛、主题偏向性等问题的出现。而如果对搜索信息按照所属类别进行分类,便可以在很大程度上满足用户搜索的需求,网页自动分类便应运而生。目前,中文网页自动分类技术在搜索引擎的目录导航服务、信息过滤、主题搜索、个性化信息检索、主动信息推送服务领域得到了广泛地应用。本文主要研究内容包括以下几个方面:首先,通过分析网页中包含的“噪声”,结合网页内容的视觉信息和几何布局,使用改进的网页DOM树结构和可视化分析方法识别出主题型网页的内容块,然后在得到的内容块中提取出网页的主要内容,利用统计学的方法来去除网页中与主题不相关的内容,最终达到有效去除网页噪声的目的。实验表明,该方法可以在很大程度上净化网页文本,删除网页中与主题不相关的信息。其次,针对余弦距离在计算文本相似度时,没有考虑文本特征词之间的语义信息,结合《知网》对词汇间概念的语义定义,使用一种基于改进的最优指派模型计算文本的最大相似度。该方法通过模型将网页文本中每个特征词对文本间语义相似度的贡献值聚合在一起,得到网页文本间的相似度值。最后,通过研究网页自动分类的一般常用模型,并结合网页类别定义的自身特点,构建了一种基于支持向量机的层次分类模型。该模型首先用支持向量机识别出所有的顶层类别,然后进行二次特征选择,去除子类间的无关特征,再对每个顶层类别用K-NN识别出子类别。实验表明,该层次分类方法可以得到较好的分类效果。

全文目录

摘要  7-8
Abstract  8-10
插图索引  10-11
附表索引  11-12
第1章绪论  12-17
  1.1 课题背景  12-13
  1.2 网页分类的研究现状  13-15
    1.2.1 国外研究现状  13-14
    1.2.2 国内研究现状  14-15
  1.3 搜索引擎概述  15
  1.4 本文的主要研究内容  15-16
  1.5 论文组织  16-17
第2章中文网页分类技术概述  17-23
  2.1 中文网页分类模型  17-18
  2.2 中文网页分类的关键技术  18-21
    2.2.1 网页预处理  18-19
    2.2.2 网页文本表示  19-20
    2.2.3 特征降维方法  20
    2.2.4 分类算法概述  20-21
    2.2.5 分类器性能评价  21
  2.3 本章小结  21-23
第3章基于改进 DOM 树的网页净化方法  23-30
  3.1 网页净化的方法  23-25
  3.2 DOM 技术概述  25
  3.3 网页净化的模型设计  25-26
  3.4 IDVA 算法和 MCE 算法介绍  26-29
    3.4.1 IDVA 算法思想  27-28
    3.4.2 MCE 算法思想  28-29
  3.5 本章小结  29-30
第4章特征降维和相似度计算  30-40
  4.1 特征降维方法  30-33
  4.2 文本的相似度计算  33
  4.3 经典相似度评价模型  33-35
    4.3.1 布尔模型  33
    4.3.2 向量空间模型  33-34
    4.3.3 概率模型  34-35
  4.4 改进的相似度计算方法  35-39
    4.4.1 最优指派模型的改进  35-36
    4.4.2 《知网》知识库介绍  36-38
    4.4.3 改进的相似度计算方法—Hsim  38-39
  4.5 本章小结  39-40
第5章基于支持向量机的层次分类  40-46
  5.1 层次分类概述  40-41
  5.2 支持向量机方法  41-43
    5.2.1 支持向量机基础  41-42
    5.2.2 支持向量机的发展  42-43
  5.3 K-近邻(K-NN)方法  43-44
    5.3.1 K-NN 基础  43
    5.3.2 K-NN 的发展  43-44
  5.4 基于支持向量机的层次分类模型  44-45
  5.5 本章小结  45-46
第6章实验设计与分析  46-52
  6.1 网页净化实验  46-48
    6.1.1 实验数据和方法  46
    6.1.2 结果分析  46-48
  6.2 层次分类实验  48-51
    6.2.1 实验设计  48-49
    6.2.2 实验结果分析  49-51
  6.3 本章小结  51-52
总结与展望  52-54
参考文献  54-59
致谢  59-60
附录 A 攻读硕士学位期间所发表的论文  60

智能搜索中的中文网页分类研究

内容摘要

全文目录

相似论文