学位论文 > 优秀研究生学位论文题录展示

中文农业网页多分类方法研究

作 者: 王霜霜
导 师: 张太红
学 校: 新疆农业大学
专 业: 农业机械化工程
关键词: 中文农业网页 文本多分类 特征选择 特征加权 机器学习 支持向量机 F1测试值
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 11次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术的匕速发展和互联网的普及,农业信息化的建设、服务及水平都得到了极大的促进与提高。互联网中海量、无序和繁杂的农业信息在为农业从业人员带来便利的同时,也增加了获取有效信息的难度。如何对这些农业信息进行有效的分类管理,从而方便农民朋友及时、准确地从中获取需要的实际信息,成为农业信息化领域研究的重要课题。本文的主要工作包括:1)深入研究了文本分类的关键技术,主要包括:文本预处理、中文分词、特征提取方法、特征加权算法、机器学习算法以及分类评价标准技术,以农业网页的语料库为基础,对文本多分类技术、特征提取算法、特征加权算法和机器学习算法进行了重点研究。2)对中文农业网页进行了分类标准定义,构建出中文农业网页语料库。并从导航页面类、农业新闻类、政策法规类、农业科技类和市场信息类五种类别的农业网页中分别随机抽取1000张网页共5000张网页作为多分类实验的训练样本集,同时还分别随机抽取了500张网页共2500张网页作为多分类实验的测试样本集。3)首先利用HTMLParser解析器对样本集网页进行预处理,利用庖丁解牛分词器软件对已经预处理的网页进行分词、去除停用词处理;其次利用方统计方法进行特征提取,选择各类分值中最大的前300个词作为实验特征词,利用布尔权重、词频权重和词频倒文档频权重对特征进行加权;然后利用多元线性回归、朴素贝叶斯、K最临近和支持向量机四种机器学习方法对三种不同权值的特征向量空间进行有监督学习;最终得到了12组中文农业网页的多分类模型。4)从基于相同机器学习方法、不同特征权重的角度,分析比较了12组多分类模型回测预测时的查准率、查全率和F1测度。结果表明:没有哪种特征加权方法对分类效果有绝对优势,三种特征权重在不同机器学习分类模型中各有优劣。从基于相同特征权重、不同机器学习方法的角度进行的分析对比,结果表明:K最临近算法学习能力(回测)最好,结合词频权值获得的模型,准确率、召回率及F1测度均可达到100%;支持向量机推广能力或泛化能力(预测)最好,结合布尔权值获得的模型,准确率、召回率及F1测度均可达到99%左右。总结,本文基于中文农业网页语料库随机抽取的5000张训练样本和2500张测试样本,使用文本分类技术中的特征加权算法与机器学习算法对农业网页的多分类技术进行了深入研究。通过对实验结果的分析与对比,结果表明:使用支持向量机算法结合布尔权值获得的分类器模型,对农业网页语料库有最好的多分类效果。样本回测时,准确率、召回率及F1测度均可达到99.9%;样本预测时,准确率、召回率及F1测度均可达到99%左右。

全文目录


摘要  3-4
Abstract  4-8
第1章 概述  8-13
  1.1 论文研究的目的和意义  8
  1.2 国内外研究现状  8-10
    1.2.1 国外网页分类研究现状  9-10
    1.2.2 国内网页分类研究现状  10
  1.3 研究目标与内容  10-11
    1.3.1 研究目标  10
    1.3.2 研究内容  10-11
  1.4 拟解决的关键问题  11
  1.5 论文专业术语对照表  11-12
  1.6 论文的结构  12-13
第2章 文本分类流程及关键技术  13-18
  2.1 文本分类定义  13
  2.2 文本分类流程  13-14
  2.3 文本分类关键技术  14-15
  2.4 样本集来源及分类标准定义  15-16
    2.4.1 样本集来源  15
    2.4.2 样本集分类标准及定义  15-16
  2.5 网页预处理及分词  16-17
    2.5.1 网页预处理  16
    2.5.2 分词方法选择  16-17
  2.6 本章小结  17-18
第3章 特征提取与特征加权  18-26
  3.1 特征提取  18-21
    3.1.1 特征提取方法介绍  18-21
    3.1.2 特征提取方法选择  21
  3.2 特征加权算法  21-24
    3.2.1 布尔权重  21-22
    3.2.2 词频权重  22
    3.2.3 倒文档权重  22-23
    3.2.4 词频倒文档权重  23-24
  3.3 特征集提取  24-25
  3.4 本章小结  25-26
第4章 机器学习算法与模型构建  26-37
  4.1 多元线性回归算法  26-28
    4.1.1 多元线性回归多分类方法  27
    4.1.2 多元线性回归多分类方法实现  27-28
  4.2 朴素贝叶斯算法  28-30
    4.2.1 朴素贝叶斯多分类方法  29-30
    4.2.2 朴素贝叶斯多分类方法实现  30
  4.3 K最临近算法  30-32
  4.4 支持向量机算法  32-36
    4.4.1 支持向量机多分类方法  34-35
    4.4.2 支持向量机多分类方法实现  35-36
  4.5 本章小结  36-37
第5章 中文农业网页多分类实验及结果分析  37-60
  5.1 文本分类评价标准  37-38
  5.2 实验与结果分析  38-59
    5.2.1 样本集构建  38-39
    5.2.2 不同机器学习算法的实验结果  39-50
    5.2.3 相同机器学习不同权重结果对比  50-54
    5.2.4 相同机器学习不同权重结果比较  54-56
    5.2.5 相同权重不同机器学习结果比较  56-59
  5.3 本章小结  59-60
第6章 总结与展望  60-62
  6.1 全文总结  60
  6.2 研究展望  60-62
参考文献  62-65
致谢  65-66
作者简历  66

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 基于仿生模式识别的文本分类技术研究,TP391.1
  10. 唇读中的特征提取、选择与融合,TP391.41
  11. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 基于支持向量机的故障诊断方法研究,TP18
  14. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  15. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  16. 语音情感识别的特征选择与特征产生,TP18
  17. 基于车载3D加速传感器的路况监测研究,TP274
  18. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  19. 不匹配信道下耳语音说话人识别研究,TN912.34
  20. 基于文本挖掘的学者简历自动生成,TP391.1
  21. 英汉命名实体翻译方法研究,TP391.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com