学位论文 > 优秀研究生学位论文题录展示
基于SVM的中文网页自动分类技术研究
作 者: 盛魁
导 师: 赵鹏
学 校: 安徽大学
专 业: 计算机技术
关键词: 网页分类 SVM 多分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 73次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网迅速普及和发展,网络信息资源呈爆炸式增长,用户从中选择自己感兴趣的信息,给用户带来了方便,然而网络给人们提供足够丰富信息的同时,也带来了新的问题。面对繁杂的网页内容,很难找到所需的信息,如何方便快捷地找到这些网页信息,并有效管理和组织供用户进行选择是当前信息分类面临的一大挑战。“信息过载”是影响信息收集效率的一个主要原因,网上众多不相关的信息默认为是相关的,则非常容易发生“信息过载”的现象,虽然使用“信息过滤”和“信息检索”等方法可以解决这个问题。然而,大部分“信息过滤”和“信息检索”的方法不能够明确的说明用户需求。面对网上的海量信息,传统的处理方式先是人工对网上信息进行分类,然后再组织和整理分类结果。这种人工分类的做法不仅耗费大量的人力、物力和财力,而且存在分类结果一致性不高的问题。因此,对网页自动分类技术进行研究,使网页能够自动进行分类,为用户提供方便快捷的信息,具有重要的现实意义。本文结合中文网页文本分类的研究背景,研究意义以及简要介绍SVM算法的国内外学者对其研究的现状,并针对SVM多类别分类方法进行改进和实验验证。具体工作如下:首先,本文简要介绍Web挖掘的流程和应用,研究分析中文网页分类的总体过程,包括:中·文网页预处理、特征选取技术、网页分类算法和网页分类效果的评价指标。重点研究分析特征选取技术,网页分类效果的评价指标。其次,分析研究统计学习理论的理论基础和SVM算法的基本原理,对SVM的多种多类别分类算法进行介绍。本文的理论创新是针对支持向量机多分类算法实际存在不足,进行了改进,提出一种新的多类分类SVM网页分类方法。最后,在改进多分类算法的基础上,进行仿真实验,将收集到的中文网页样本用于未改进算法和改进算法进行训练和测试,实验结果表明改进后的多分类SVM算法效果优于未改进的算法;此外,对不同特征表示对分类结果的影响,进行了验证分析,得出TF-IDF方法性能优于词频权重方法;最后对如何选择合适的特征表示分析方法、提高分类的准确率提出了一些研究思路。
|
全文目录
相似论文
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于计算机视觉的柑橘品质分级技术研究,TP391.41
- 海南雾的天气气候特征分析及预报方法研究,P457
- 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
- 基于支持向量机的视频目标检测方法研究,TP391.41
- 基于视觉的运动人体行为分析,TP391.41
- 视频图像中的行人检测算法研究与实现,TP391.41
- 耦合“图—谱”特征的遥感影像自动分类方法研究,TP751
- 基于SVM和形状特征的电极三维模型分类检索的研究,TP391.41
- 基于头肩轮廓特征的人头检测系统的研究,TP391.41
- 心电特征提取及分类方法研究,TN911.7
- 多特征融合的视觉跟踪算法研究,TP391.41
- 面向主题型的网页分类技术的研究与实现,TP393.092
- 基于多普勒气象雷达的风切变预测研究,P415.2
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于与或图的车牌检测与识别,TP391.41
- 基于脑波的情感图像检索的研究,TP391.41
- 电动汽车驱动控制系统的研究,U469.72
- 基于环境参数的过渡环境下人体热感觉预测,TU831
- 音乐风格分析研究,J605
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|