学位论文 > 优秀研究生学位论文题录展示
HTML文本自动分类技术的研究与工具的实现
作 者: 刘冬梅
导 师: 王俊义
学 校: 内蒙古大学
专 业: 计算机应用技术
关键词: HTML文本自动分类 向量空间模型 K近邻分类器 支持向量机 KNN-SVM
分类号: TP391.1
类 型: 硕士论文
年 份: 2006年
下 载: 284次
引 用: 6次
阅 读: 论文下载
内容摘要
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。本文的目标就是以HTML文本信息处理为背景,从理论及应用两个层次对文本信息的分类方法进行了较为深入的研究。 本文主要研究内容包括: 1.构建了一个实验用语料库。 2.研究了HTML标记对网页内容的修饰作用,以前人理论为基础设计和实现了基于HTML标记的网页分析和加权策略与算法。 3.分析了HTML文本自动分类的重要技术:文本预处理;特征赋权;特征提取和特征选择的六种评估函数:信息增益,互信息,期望交叉熵,X~2统计,文本证据权,右半信息增益。对用Webdup抓取得的HTML文本集进行了系统测试,分析了各种评估函数对不同分类器的优劣。 4.研究了HTML文本分类算法:朴素贝叶斯、K近邻、支持向量机等几种分类算法,将k近邻方法和支持向量机相结合形成KNN-SVM分类器,更加适用于网页文本自动分类的需要。并对KNN和KNN-SVM两种分类器在复旦大学标准语料库和网页语料库上进行了实验比较分析,得出KNN-SVM是比KNN更好的分类器。 5.作为HTML文本自动分类技术研究的结果,采用VC++设计与实现了支持KNN和KNN-SVM两种分类器的HTML文本自动分类原型系统。
|
全文目录
摘要 2-3 ABSTRACT 3-5 目录 5-7 图表目录 7-8 第一章 前言 8-12 1.1 课题研究背景及意义 8-9 1.2 国内外研究现状 9-10 1.2.1 文本自动分类技术研究在国内外的发展 9 1.2.2 文本自动分类技术的研究现状 9-10 1.3 本文的研究内容 10-12 1.3.1 研究内容 10-11 1.3.2 本文的组织 11-12 第二章 HTML文本自动分类技术概述 12-23 2.1 文本分类技术 12-14 2.1.1 文本分类概念 12-13 2.1.2 文本自动分类问题的一般性描述 13-14 2.2 文本自动分类工具的实现过程 14-17 2.2.1 向量空间模型 14-15 2.2.2 实现过程概述 15-17 2.3 HIML文本的预处理技术 17-19 2.4 分类器的训练及测试 19-20 2.5 性能评估方法 20-21 2.6 实验用语料库 21-23 第三章 HTML文本自动分类中预处理、特征提取、特征选择的研究比较 23-38 3.1 HTML文本的预处理 23-27 3.1.1 HTML文本标记加权方案 23-24 3.1.2 分词前的预处理 24-25 3.1.3 HTML预处理算法 25-26 3.1.4 预处理前后分类器性能比较 26-27 3.2 HTML文本的特征提取和特征选择 27-31 3.2.1 文档频率(DF) 28 3.2.2 信息增益(IG) 28 3.2.3 互信息(MI) 28-29 3.2.4 X~2统计量(CHI) 29 3.2.5 期望交叉熵(ECE) 29-30 3.2.6 文本证据权(WET) 30 3.2.7 特征词的强度(TS) 30 3.2.8 几率比(OR) 30-31 3.2.9 主成分分析(PCA) 31 3.3 特征评估函数实验比较 31-34 3.4 HTML文本特征项权重计算 34-36 3.4.1 布尔权重 34 3.4.2 词频权重 34 3.4.3 TF-IDF权重 34-35 3.4.4 TFC权重 35 3.4.5 LTC权重 35 3.4.6 基于熵概念的权重 35-36 3.5 不同赋权方法实验比较 36-38 第四章 HTML文本自动分类算法及其实验比较 38-51 4.1 朴素贝叶斯分类法(NB) 38-39 4.2 K近邻分类法(KNN) 39-41 4.2.1 KNN方法 39-40 4.2.2 K值的选取 40-41 4.3 支持向量机分类法(SVM) 41-44 4.3.1 线性可分情况 42-43 4.3.2 线性不可分情况 43-44 4.4 KNN-SVM分类法 44-47 4.4.1 基本原理 44-46 4.4.2 分类算法 46-47 4.5 KNN和KNN-SVM分类器比较分析 47-51 第五章 HTML文本自动分类工具的设计与实现 51-58 5.1 分类工具的体系结构 51-54 5.2 主要功能模块介绍 54-58 5.2.1 HTML文本处理及特征提取模块 54-55 5.2.2 文本分类模块 55-56 5.2.3 分类测试与结果评估模块 56-58 第六章 总结与展望 58-60 6.1 论文内容总结 58 6.2 本文主要工作和创新点 58-59 6.3 不足及对未来的展望 59-60 参考文献 60-64 致谢 64
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于AdaBoost算法的人脸识别研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|