学位论文 > 优秀研究生学位论文题录展示

搜索引擎下Web分类技术研究

作 者: 王伟
导 师: 胡文江; 高永兵
学 校: 内蒙古科技大学
专 业: 计算机应用技术
关键词: 信息抽取 特征项选择 文本分类 支持向量机
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 45次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网技术的发展,人们进入了信息化的时代。在这个信息化的时代,信息就意味着财富,如何有效快速获得准确的、有价值的信息成为关键环节。当前,Web上出现了大量的、结构不同的信息资源,并且这些资源大都以Web文本形式存在,而这些Web资源中包含了大量对人们有价值的信息,怎样从海量的Web资源中提取出有效信息成为信息处理领域亟待解决的问题。Web文本分类技术是在现有的文本分类理论和技术基础上发展起来的,它利用了文本分类理论知识和现有的成熟的分类技术。Web文本分类摒弃了原始的人工分类方式,节省了大量的人力,物力等,能够有效提高用户检索的速度,并对检索结果准确分类,它已成为信息处理领域的研究热点。本文介绍了课题的研究背景和国内外研究现状,并阐述了文本分类相关的理论和技术。通过总结学习文本分类相关的理论知识,在分析网页的结构特点的基础上,对课题的解决有了一个较为清晰的思路:首先进行利用网络机器人进行网页采集,提取网页中的文本信息,然后对得到的文本信息进行预处理,转换为文本格式,最后构造分类器,利用分类算法实现Web文本的分类。在处理过程中提出了基于信息块的去噪方法,利用文本频率和χ2统计相结合的方法选择特征项,最后利用多分类决策支持向量机实现文本分类,并提出了分类搜索引擎的设计思路。通过实验设计对本文提出的理论方法进行验证,实验表明在信息抽取、Web分类结果上都有较高的准确性。

全文目录


相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 领域实体属性及事件抽取技术研究,TP391.1
  9. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  10. 时间表达式识别与归一化研究,TP391.1
  11. 基于仿生模式识别的文本分类技术研究,TP391.1
  12. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  13. 基于文本挖掘的学者简历自动生成,TP391.1
  14. 基于本体的文本信息抽取技术及实现,TP391.1
  15. 基于查询扩展的信息抽取技术研究及应用,TP391.1
  16. 基于本体的食品投诉文本危害信息抽取研究,TP391.1
  17. 基于本体的食品投诉文档事件追踪研究,TP391.1
  18. 隐私保护线性规划和支持向量机新算法,O221.1
  19. 基于人脸表情识别的情感研究,TP391.41
  20. 网页属性抽取的方法研究,TP391.1
  21. 基于规则的Web文本信息抽取技术的研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com