学位论文 > 优秀研究生学位论文题录展示

Web正文信息抽取与面向层次结构的分类技术研究

作　者: 郭力
导　师: 王振宇
学　校: 华南理工大学
专　业: 计算机系统结构
关键词: 网页正文层次结构领域知识库网页分类
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 39次
引　用: 1次
阅　读: 论文下载

内容摘要

随着互联网的发展,网络信息资源急剧膨胀,同时也带来了一些负面效应:一方面,网页正文信息周围夹杂了许多与主题无关的“噪音信息”,干扰了用户的视觉;另一方面,信息的杂乱无章给网页聚类和热点信息监控带来了计算效率和准确度问题。本文对Web正文信息抽取和面向层次结构的分类技术进行了研究,并通过实验进行了验证分析。具体来说,本文主要的工作和取得的成果如下:1.通过对Web正文信息抽取研究现状分析,给出了基于DOM树和部分超链接过滤的网页正文信息抽取算法。算法通过网页预处理模块和正文信息抽取模块实现对不同结构网页的正文信息抽取,弥补了已有算法对正文结点类型限定、单一阈值依赖或受限于特定模板页面等不足。实验表明,算法可取得较高的查准率和召回率,为一种通用有效的正文信息抽取算法。2.根据综合门户站点按照自身的分类体系组织站点上的资讯这一特征,通过构建虚拟站点层次关系树并抽取出真实站点的层次结构,提出了基于站点层次结构的网页分类技术,实现网页分类抓取。3.对于无分类信息的站点,由于网页标题包含丰富分类信息,给出了基于标题的网页分类技术,其中包括领域知识库和基于《知网》的词语语义相似度计算等模块。4.领域知识库主要由常规领域特征词组成。针对传统? 2统计量特征选择算法的不足,提出了改进的基于? 2统计量的特征选择算法,引入了归一化的词频密度和类内覆盖度两个修正因子,完成领域特征词自动构建。5.网页标题用语随意且组织形式多变,对于未在领域知识库命中的标题,利用《知网》语义相似度计算模型,将标题预处理后的特征词与各类别特征词向量进行语义相似度计算,以确定网页类别。实现结果表明:该方法具有良好的分类效果。

全文目录

摘要  5-6
Abstract  6-10
第一章绪论  10-16
  1.1 研究背景及意义  10-11
  1.2 国内外研究现状  11-13
    1.2.1 Web 信息抽取技术研究现状  11-12
    1.2.2 网页自动分类技术研究现状  12-13
  1.3 本文的研究内容  13-14
  1.4 论文的组织结构  14-16
第二章相关理论和关键技术  16-23
  2.1 信息抽取  16
  2.2 文本分类  16-18
  2.3 文本预处理技术  18-19
    2.3.1 中文分词技术  18
    2.3.2 停用词处理  18-19
  2.4 特征选择  19
  2.5 文本分类常用方法  19-21
  2.6 知网  21-22
    2.6.1 知网的结构  21
    2.6.2 知网的概念  21-22
  2.7 本章小结  22-23
第三章基于DOM 树和部分超链接过滤的正文信息抽取  23-41
  3.1 网页正文信息与网页结构  23
  3.2 网页正文信息抽取方法  23-29
    3.2.1 基于启发性规则的抽取方法  24-28
    3.2.2 基于网页模板的方法  28-29
  3.3 基于网页DOM 树和部分超链接过滤的正文信息抽取算法  29-37
    3.3.1 网页规范化  29-30
    3.3.2 去噪过滤  30-34
    3.3.3 正文信息抽取  34-37
  3.4 实验及分析  37-40
    3.4.1 实验评测指标结果  37-38
    3.4.2 实验结果分析  38-40
  3.5 本章小结  40-41
第四章基于站点层次结构的网页分类技术  41-46
  4.1 虚拟站点层次关系树的构建  41-42
  4.2 站点层次结构抽取算法  42-43
  4.3 网页分类的实现  43-45
  4.4 本章小结  45-46
第五章基于标题的网页分类研究  46-64
  5.1 标题预处理  46-48
    5.1.1 网页标题  46-47
    5.1.2 领域知识库  47-48
  5.2 特征选择研究  48-55
    5.2.1 特征选择方法  48-51
    5.2.2 归一化词频密度  51-52
    5.2.3 类内覆盖度  52
    5.2.4 改进的X~2 特征选择算法  52-54
    5.2.5 常规领域知识导入  54-55
  5.3 词语相似度  55-58
    5.3.1 词语相似度计算方法  55-56
    5.3.2 基于《知网》的语义相似度计算  56
    5.3.3 网页自动分类流程  56-58
  5.4 实验及分析  58-63
    5.4.1 性能评价方法  58-59
    5.4.2 实验数据  59-60
    5.4.3 实验结果及分析  60-63
  5.5 本章小结  63-64
第六章系统实现  64-75
  6.1 系统设计思想  64-65
  6.2 系统总体框架和模块设计  65-74
    6.2.1 网页正文信息抽取模块  66-69
    6.2.2 基于站点层次结构的网页分类模块  69-71
    6.2.3 基于标题的网页分类模块  71-73
    6.2.4 缓存管理模块  73-74
  6.3 本章小结  74-75
结论  75-77
参考文献  77-81
攻读硕士学位期间取得的研究成果  81-82
致谢  82-83
答辩委员会对论文的评定意见  83

Web正文信息抽取与面向层次结构的分类技术研究

内容摘要

全文目录

相似论文