学位论文 > 优秀研究生学位论文题录展示
Web正文信息抽取与面向层次结构的分类技术研究
作 者: 郭力
导 师: 王振宇
学 校: 华南理工大学
专 业: 计算机系统结构
关键词: 网页正文 层次结构 领域知识库 网页分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 39次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网的发展,网络信息资源急剧膨胀,同时也带来了一些负面效应:一方面,网页正文信息周围夹杂了许多与主题无关的“噪音信息”,干扰了用户的视觉;另一方面,信息的杂乱无章给网页聚类和热点信息监控带来了计算效率和准确度问题。本文对Web正文信息抽取和面向层次结构的分类技术进行了研究,并通过实验进行了验证分析。具体来说,本文主要的工作和取得的成果如下:1.通过对Web正文信息抽取研究现状分析,给出了基于DOM树和部分超链接过滤的网页正文信息抽取算法。算法通过网页预处理模块和正文信息抽取模块实现对不同结构网页的正文信息抽取,弥补了已有算法对正文结点类型限定、单一阈值依赖或受限于特定模板页面等不足。实验表明,算法可取得较高的查准率和召回率,为一种通用有效的正文信息抽取算法。2.根据综合门户站点按照自身的分类体系组织站点上的资讯这一特征,通过构建虚拟站点层次关系树并抽取出真实站点的层次结构,提出了基于站点层次结构的网页分类技术,实现网页分类抓取。3.对于无分类信息的站点,由于网页标题包含丰富分类信息,给出了基于标题的网页分类技术,其中包括领域知识库和基于《知网》的词语语义相似度计算等模块。4.领域知识库主要由常规领域特征词组成。针对传统? 2统计量特征选择算法的不足,提出了改进的基于? 2统计量的特征选择算法,引入了归一化的词频密度和类内覆盖度两个修正因子,完成领域特征词自动构建。5.网页标题用语随意且组织形式多变,对于未在领域知识库命中的标题,利用《知网》语义相似度计算模型,将标题预处理后的特征词与各类别特征词向量进行语义相似度计算,以确定网页类别。实现结果表明:该方法具有良好的分类效果。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 绪论 10-16 1.1 研究背景及意义 10-11 1.2 国内外研究现状 11-13 1.2.1 Web 信息抽取技术研究现状 11-12 1.2.2 网页自动分类技术研究现状 12-13 1.3 本文的研究内容 13-14 1.4 论文的组织结构 14-16 第二章 相关理论和关键技术 16-23 2.1 信息抽取 16 2.2 文本分类 16-18 2.3 文本预处理技术 18-19 2.3.1 中文分词技术 18 2.3.2 停用词处理 18-19 2.4 特征选择 19 2.5 文本分类常用方法 19-21 2.6 知网 21-22 2.6.1 知网的结构 21 2.6.2 知网的概念 21-22 2.7 本章小结 22-23 第三章 基于DOM 树和部分超链接过滤的正文信息抽取 23-41 3.1 网页正文信息与网页结构 23 3.2 网页正文信息抽取方法 23-29 3.2.1 基于启发性规则的抽取方法 24-28 3.2.2 基于网页模板的方法 28-29 3.3 基于网页DOM 树和部分超链接过滤的正文信息抽取算法 29-37 3.3.1 网页规范化 29-30 3.3.2 去噪过滤 30-34 3.3.3 正文信息抽取 34-37 3.4 实验及分析 37-40 3.4.1 实验评测指标结果 37-38 3.4.2 实验结果分析 38-40 3.5 本章小结 40-41 第四章 基于站点层次结构的网页分类技术 41-46 4.1 虚拟站点层次关系树的构建 41-42 4.2 站点层次结构抽取算法 42-43 4.3 网页分类的实现 43-45 4.4 本章小结 45-46 第五章 基于标题的网页分类研究 46-64 5.1 标题预处理 46-48 5.1.1 网页标题 46-47 5.1.2 领域知识库 47-48 5.2 特征选择研究 48-55 5.2.1 特征选择方法 48-51 5.2.2 归一化词频密度 51-52 5.2.3 类内覆盖度 52 5.2.4 改进的X~2 特征选择算法 52-54 5.2.5 常规领域知识导入 54-55 5.3 词语相似度 55-58 5.3.1 词语相似度计算方法 55-56 5.3.2 基于《知网》的语义相似度计算 56 5.3.3 网页自动分类流程 56-58 5.4 实验及分析 58-63 5.4.1 性能评价方法 58-59 5.4.2 实验数据 59-60 5.4.3 实验结果及分析 60-63 5.5 本章小结 63-64 第六章 系统实现 64-75 6.1 系统设计思想 64-65 6.2 系统总体框架和模块设计 65-74 6.2.1 网页正文信息抽取模块 66-69 6.2.2 基于站点层次结构的网页分类模块 69-71 6.2.3 基于标题的网页分类模块 71-73 6.2.4 缓存管理模块 73-74 6.3 本章小结 74-75 结论 75-77 参考文献 77-81 攻读硕士学位期间取得的研究成果 81-82 致谢 82-83 答辩委员会对论文的评定意见 83
|
相似论文
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 小型移动机器人系统平台的模块化设计与实现,TP242
- 基于DBUS的嵌入式系统应用程序接口的研究,TP368.1
- 面向主题型的网页分类技术的研究与实现,TP393.092
- 非线性系统的多层次多模型预测控制方法研究,TP273
- 基于最大熵模型的中文网页分类器设计和实现,TP393.092
- 石家庄市民营科技企业成长路径与核心竞争力评价研究,F276.44
- PP/POE共混体系注塑制品多层次形态演变及性能研究,TQ320.662
- 中文网页分类技术研究及预分类算法实现,TP393.092
- 企业搜索引擎中网页分类技术的研究与实现,TP393.092
- 主谓关系识别与主题相关性计算技术研究,TP391.1
- 河南省卫生系统反应性影响因素的二水平模型,R195
- 基于URL特征的网页分类研究,TP393.092
- 统计和规则相结合的新闻网页分类系统的设计与实现,TP393.092
- 奥巴马竞选2008年美国总统演讲言语行为探究,H313
- 基于Web内容挖掘的医药类广告监控系统的实现,TP393.09
- 网络拓扑连通性恢复算法的研究与实现,TP393.02
- JH公司企业网的设计与实现,TP393.18
- 基于本体的教学领域知识库研究,TP391.1
- 我国小额信贷多层次发展的结构与对策研究,F832.4
- 长江下游内河港口群结构分析,F552
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|