学位论文 > 优秀研究生学位论文题录展示
智能搜索中的中文网页分类研究
作 者: 邓科
导 师: 张永
学 校: 兰州理工大学
专 业: 计算机应用技术
关键词: 智能搜索 网页分类 网页净化 层次分类
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 51次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术突飞猛进的发展,网络规模正以指数级增长。为了更加快捷的找到所需的信息,而不被庞大无序且结构类型多样的信息海洋所淹没,智能搜索已成为人们获取信息的主要途径。然而,当前的全文搜索引擎虽然提供了信息检索服务,但是自身存在着种种缺陷导致了诸如信息孤岛、主题偏向性等问题的出现。而如果对搜索信息按照所属类别进行分类,便可以在很大程度上满足用户搜索的需求,网页自动分类便应运而生。目前,中文网页自动分类技术在搜索引擎的目录导航服务、信息过滤、主题搜索、个性化信息检索、主动信息推送服务领域得到了广泛地应用。本文主要研究内容包括以下几个方面:首先,通过分析网页中包含的“噪声”,结合网页内容的视觉信息和几何布局,使用改进的网页DOM树结构和可视化分析方法识别出主题型网页的内容块,然后在得到的内容块中提取出网页的主要内容,利用统计学的方法来去除网页中与主题不相关的内容,最终达到有效去除网页噪声的目的。实验表明,该方法可以在很大程度上净化网页文本,删除网页中与主题不相关的信息。其次,针对余弦距离在计算文本相似度时,没有考虑文本特征词之间的语义信息,结合《知网》对词汇间概念的语义定义,使用一种基于改进的最优指派模型计算文本的最大相似度。该方法通过模型将网页文本中每个特征词对文本间语义相似度的贡献值聚合在一起,得到网页文本间的相似度值。最后,通过研究网页自动分类的一般常用模型,并结合网页类别定义的自身特点,构建了一种基于支持向量机的层次分类模型。该模型首先用支持向量机识别出所有的顶层类别,然后进行二次特征选择,去除子类间的无关特征,再对每个顶层类别用K-NN识别出子类别。实验表明,该层次分类方法可以得到较好的分类效果。
|
全文目录
摘要 7-8 Abstract 8-10 插图索引 10-11 附表索引 11-12 第1章 绪论 12-17 1.1 课题背景 12-13 1.2 网页分类的研究现状 13-15 1.2.1 国外研究现状 13-14 1.2.2 国内研究现状 14-15 1.3 搜索引擎概述 15 1.4 本文的主要研究内容 15-16 1.5 论文组织 16-17 第2章 中文网页分类技术概述 17-23 2.1 中文网页分类模型 17-18 2.2 中文网页分类的关键技术 18-21 2.2.1 网页预处理 18-19 2.2.2 网页文本表示 19-20 2.2.3 特征降维方法 20 2.2.4 分类算法概述 20-21 2.2.5 分类器性能评价 21 2.3 本章小结 21-23 第3章 基于改进 DOM 树的网页净化方法 23-30 3.1 网页净化的方法 23-25 3.2 DOM 技术概述 25 3.3 网页净化的模型设计 25-26 3.4 IDVA 算法和 MCE 算法介绍 26-29 3.4.1 IDVA 算法思想 27-28 3.4.2 MCE 算法思想 28-29 3.5 本章小结 29-30 第4章 特征降维和相似度计算 30-40 4.1 特征降维方法 30-33 4.2 文本的相似度计算 33 4.3 经典相似度评价模型 33-35 4.3.1 布尔模型 33 4.3.2 向量空间模型 33-34 4.3.3 概率模型 34-35 4.4 改进的相似度计算方法 35-39 4.4.1 最优指派模型的改进 35-36 4.4.2 《知网》知识库介绍 36-38 4.4.3 改进的相似度计算方法—Hsim 38-39 4.5 本章小结 39-40 第5章 基于支持向量机的层次分类 40-46 5.1 层次分类概述 40-41 5.2 支持向量机方法 41-43 5.2.1 支持向量机基础 41-42 5.2.2 支持向量机的发展 42-43 5.3 K-近邻(K-NN)方法 43-44 5.3.1 K-NN 基础 43 5.3.2 K-NN 的发展 43-44 5.4 基于支持向量机的层次分类模型 44-45 5.5 本章小结 45-46 第6章 实验设计与分析 46-52 6.1 网页净化实验 46-48 6.1.1 实验数据和方法 46 6.1.2 结果分析 46-48 6.2 层次分类实验 48-51 6.2.1 实验设计 48-49 6.2.2 实验结果分析 49-51 6.3 本章小结 51-52 总结与展望 52-54 参考文献 54-59 致谢 59-60 附录 A 攻读硕士学位期间所发表的论文 60
|
相似论文
- 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
- 面向主题型的网页分类技术的研究与实现,TP393.092
- 基于最大熵模型的中文网页分类器设计和实现,TP393.092
- 面向城市应用的高分辨率图像分类,TP391.41
- 中文网页分类技术研究及预分类算法实现,TP393.092
- 企业搜索引擎中网页分类技术的研究与实现,TP393.092
- 搜索引擎中网页净化与消重技术研究,TP393.092
- 基于粗糙集的SVM层次文本分类技术研究,TP391.1
- 基于URL特征的网页分类研究,TP393.092
- 统计和规则相结合的新闻网页分类系统的设计与实现,TP393.092
- 基于Web内容挖掘的医药类广告监控系统的实现,TP393.09
- 基于SVM的中文网页多类分类问题研究及实现,TP393.092
- 文本层次分类技术研究,TP391.1
- 基于MODIS数据土地覆盖分类研究,TP79
- 无结构P2P网络智能搜索引擎研究,TP393.02
- 基于本体的无人机产品和技术信息搜索系统研究,TP391.3
- 语义模型、近似推理算法及其在网页分类的应用,TP393.092
- 基于Web 2.0的综合搜索引擎研究与实现,TP391.3
- 中文网页自动采集与分类系统设计与实现,TP393.092
- 基于行为识别的网页文本分类算法研究与实现,TP393.092
- 基于Web分类技术的农业信息获取系统的研究与实现,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|