学位论文 > 优秀研究生学位论文题录展示

Web文本信息挖掘中聚类算法在甘肃省扶贫网中的应用研究

作 者: 裴凌
导 师: 马义忠; 张永忠
学 校: 兰州大学
专 业: 计算机技术
关键词: Internet信息资源 传统数据挖掘技术 Web文本信息挖掘 信息提取
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 3次
引 用: 0次
阅 读: 论文下载
 

内容摘要


需求是发明之母。近年来,数据挖掘之所以引起业界的极大关注,主要原因还是用户迫切需要将产生的大量数据转换成有用的信息和知识,并且将所获取的信息和知识广泛应用于商务管理、生产控制、市场分析、工程设计和科学探索等领域。Web2.0的诞生更加速了这一进程,它是相对于Web1.0的新一类互联网应用的统称,它更注重用户的交互作用。在Web1.0时代,用户只是网站内容的浏览者,而在Web2.0时代,用户不仅仅是网站内容的浏览者,更是网站内容的制造者,由被动的接收互联网信息向主动创造互联网信息发展,这显示出互联网的人性化。但是,一个新的问题就此产生,信息量暴增,人们从中获取信息和知识就变得越来越困难,仅仅依靠以前单一的手段已远远不能满足需要。所以,如何解决好这个问题,让互联网中海量的信息资源库能够更好的为人类的生产和生活提供服务,就成为了这些年来诸多专家学者为之奋斗的一个方向,从而也就诞生了一个新的名词:Web文本信息数据挖掘。Web文本信息数据挖掘的作用就是它可以对互联网上的信息资源进行切分归类并进行搜索提取,用来帮助互联网用户进行知识的搜索和提取,进而提高用户使用互联网的效率,它属于Web数据挖掘所延伸出来的一个新的研究领域。本文着重研究了Web文本信息数据挖掘所使用的技术以及挖掘方法、运行过程,同时,为了能对Web文本信息数据挖掘做进一步的研究和了解,本文实现了一个结构简单但功能完整的Web文本信息挖掘原型系统。下面对本文所做的主要的研究工作做一个简要概述:1、介绍了Web数据挖掘及其延伸Web文本信息数据挖掘的应用背景、研究现状及发展趋势,以及我们进行Web文本信息数据挖掘研究的意义。2、介绍了甘肃省扶贫信息网的整体体系结构以及包括中文分词技术、Web文本信息特征的发现和提取方法等在Web文本信息数据挖掘过程中的所使用的核心技术。3、简单讨论了K均值算法、基于K均值和遗传算法的聚类算法等几种常用算法在甘肃扶贫信息网中的应用,并通过甘肃省扶贫信息网进行了验证。

全文目录


摘要  3-4
Abstract  4-8
第一章 引言  8-12
  1.1 研究背景  8-9
  1.2 研究现状  9-10
  1.3 研究内容  10
  1.4 论文的整体结构  10-12
第二章 Web文本信息挖掘与相关技术  12-35
  2.1 数据挖掘  12-18
    2.1.1 数据挖掘的发展  12-15
    2.1.2 基于Web的数据挖掘  15-18
  2.2 Web文本信息挖掘  18-32
    2.2.1 Web文本信息挖掘技术的原理及其工作流程  18-20
    2.2.2 Web文本信息挖掘技术应用涉及到的技术理论  20-32
  2.3 实验结果  32-34
  2.4 本章小结  34-35
第三章 甘肃扶贫网体系结构与典型模块分析  35-43
  3.1 甘肃扶贫网整体结构  35-37
  3.2 劳务输转板块分析  37-38
  3.3 “两后生”板块分析  38-39
  3.4 甘肃苹果价格走势分析  39-40
  3.5 大蒜价格走势分析  40-41
  3.6 土豆价格走势分析  41-42
  3.7 本章小结  42-43
第四章 文本信息挖掘在甘肃扶贫网中的应用  43-59
  4.1 系统开发环境  43
  4.2 系统框架  43-44
  4.3 系统结构  44-52
    4.3.1 中文分词模块  44-48
    4.3.2 特征表示和提取模块  48-50
    4.3.3 文本信息挖掘模块  50-52
  4.4 系统运行实现  52-58
    4.4.1 网页采集  52-53
    4.4.2 网页的清理  53-54
    4.4.3 系统初始化  54-56
    4.4.4 系统运行  56-58
  4.5 本章小结  58-59
第五章 总结与发展趋势  59-61
  5.1 研究工作总结  59
  5.2 发展趋势  59-61
参考文献  61-62

相似论文

  1. 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
  2. 船体分段的机器人焊接路径规划与离线编程,TP242
  3. 基于中文分词的图文自动匹配方法研究,P208
  4. 基于Lucene的垂直搜索引擎关键技术研究,TP391.3
  5. 面向多任务、多通道并行爬虫的技术研究,TP391.3
  6. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  7. 基于语义的网上股评信息的提取研究,TP391.1
  8. 基于数学形态学的高分辨率遥感图像道路信息并行提取方法研究,TP751
  9. 基于DOM树的网页相似度研究与应用,TP393.092
  10. Web社区中话题的发现与排序,O226
  11. 宁镇中段铁铜多金属矿床遥感信息找矿研究,P627
  12. 多源数据融合在鄂尔多斯盆地北部成矿预测中的应用,P619.14
  13. 秘鲁南部地区多源地学信息综合分析与找矿预测,P628.1
  14. 基于“3S”技术的塔里木河下游中段土地沙漠化监测研究,X171
  15. QUICKBIRD影像人工地物提取方法研究,P237
  16. 地物光谱特征分析及其在矿化蚀变信息提取中的应用研究,P237
  17. 基于多源遥感数据的雪盖信息提取算法及其应用研究,P426.63
  18. 基于Web挖掘的信息提取与推荐相关研究,TP393.09
  19. 中文BBS信息提取与分类,TP393.094
  20. 基于网页结构的Web信息提取系统的设计与实现,TP393.09
  21. FTIR多光谱显微图像信息提取方法研究及应用,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com