学位论文 > 优秀研究生学位论文题录展示
Web文本分类方法研究与系统实现
作 者: 程博
导 师: 陈安龙
学 校: 电子科技大学
专 业: 软件工程
关键词: 层次化 Web自动抽取 文本分类 特征提取 关键词提取
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 137次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,Web已经飞速发展成为了世界上数据量最大的公共信息源。如何使Web用户能够在浩瀚的信息资源中方便、快捷的定位到所需要的信息,已经成为迫切需要解决的问题。Web文本的正确分类正是其中的核心问题。Web文本分类源自于自动分类技术,是Web文本挖掘的重要组成部分。它不仅可以有效提高用户的搜索效率,帮助用户快速、准确的定位到目标知识,而且还可以获取到不同用户的类别兴趣特征,为满足用户的个性化服务要求提供参考。目前的分类研究多把文档类别看成是平面化的、不相交的,没有考虑到类别间的层次关系。当类别数目较多时,平面分类学习得到分类器的时间开销大,而且在对未知文档分类时,需要与全部类模型进行比较,这显然很不恰当。本文在对Web文本挖掘及自动分类技术进行深入研究的基础上,结合类别间的层次关系,实现了一个多层次的Web文本分类系统。本文创新点和关键技术如下:1.建立了层次化的训练和分类模型:本文针对网页内容丰富、涉及多领域的多个类别的特征,分析了平面分类方法在多类别情况下存在的问题,提出了层次分类的思想,建立了层次化的训练和分类模型。2.设计并实现了Web文本的自动抽取器:Web网页中掺杂的广告、超链接等噪声给Web文本分类带来了极大困扰。本文实现了一个Web文本自动抽取器,使Web页面经过处理变为较纯净的包含标题和正文内容的纯文本。3.提出了一种适合于Web网页的关键词提取方法:网页中不同位置和不同词性的词语对表达网页内容所起的作用也有所不同,针对这一特点,本文提出了基于词性、位置和词频信息加权的关键词提取方法来进一步过滤掉网页噪声词,取得了较好的效果。4.提出了一种基于χ2统计量加权的分类方法:χ2统计量能够很好的反映特征和类别间的相关性。本文创新性的将χ2统计量应用于文本分类,不但简化了分类过程,而且在实际应用中得到了较好的分类速度和准确度。本论文根据Web文本的特点提出了一套针对大规模、多类别的Web文本进行分类的实施方案,设计了一个Web文本的多层次分类系统。结果表明,本系统在实践中的分类性能优于一般的平面分类器。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第一章 引言 10-18 1.1 研究背景和意义 10-12 1.1.1 研究背景 10 1.1.2 Web 挖掘意义 10-11 1.1.3 Web 文本分类意义 11-12 1.2 文本分类技术的研究现状 12-15 1.2.1 国外文本分类研究现状 12-13 1.2.2 国内文本分类研究现状 13-14 1.2.3 Web 文本分类研究现状 14-15 1.3 课题研究难点及突出问题 15-16 1.4 本文所作主要工作 16-17 1.5 论文章节安排 17-18 第二章 Web 文本分类简介 18-30 2.1 Web 挖掘简介 18-21 2.1.1 什么是数据挖掘 19 2.1.2 什么是Web 挖掘 19-21 2.2 Web 文本挖掘 21-24 2.2.1 Web 文本挖掘定义 21 2.2.2 Web 文本挖掘的功能 21-24 2.3 Web 文本分类 24-29 2.3.1 Web 文本分类的定义 24-25 2.3.2 Web 文本分类的关键技术 25-26 2.3.3 Web 文本分类方法 26-29 2.4 本章小结 29-30 第三章 系统设计原理及总体框架 30-36 3.1 系统设计原理 30-31 3.2 系统总体框架 31-34 3.2.1 逻辑架构模型概览 31-33 3.2.2 系统用例图 33-34 3.3 系统评估方法 34-35 3.3.1 评估方法 34 3.3.2 查准率、查全率、F-score 34-35 3.4 本章小结 35-36 第四章 Web 文本自动抽取器的实现及分类训练集的建立 36-45 4.1 Web 文本自动抽取器的实现 36-42 4.1.1 网页爬取 36-37 4.1.2 网页解析 37-39 4.1.3 Web 文本自动抽取器实现 39-41 4.1.4 自动抽取器抽取结果 41-42 4.2 层次化训练集的建立 42-44 4.3 本章小结 44-45 第五章 Web 文本分类的预处理研究与实现 45-60 5.1 中文分词 45-50 5.1.1 中文分词难点 45-46 5.1.2 中文分词算法比较 46-48 5.1.3 中文分词实现 48-50 5.2 文本表示 50-51 5.3 特征权重计算 51-52 5.4 特征提取 52-58 5.4.1 常用的特征提取方法比较 52-54 5.4.2 基于改进的CHI 的特征提取方法 54 5.4.3 特征提取实现 54-57 5.4.4 特征提取算法测试 57-58 5.5 本章小结 58-60 第六章 Web 文本的多层次分类器实现 60-74 6.1 决策树和贝叶斯分类算法介绍 61-64 6.1.1 决策树分类算法 61-63 6.1.2 贝叶斯分类算法 63-64 6.2 一种基于χ~2 值加权的层次分类方法 64-72 6.2.1 Web 文本关键词提取 64-67 6.2.2 一种基于 χ~2值加权的层次分类方法实现 67-72 6.3 分类测试结果与分析 72-73 6.4 本章小结 73-74 第七章 总结与展望 74-76 7.1 全文总结 74-75 7.2 展望 75-76 致谢 76-77 参考文献 77-81 在学期间的研究成果 81-82 附录一 82-84
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 安史之乱与天宝大历之际的诗风演变,I207.22
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|