学位论文 > 优秀研究生学位论文题录展示
电子文档信息挖掘系统的研究
作 者: 蔡立军
导 师: 张大方;郭克俊
学 校: 湖南大学
专 业: 控制工程
关键词: 数据挖掘 电子文档 web日志挖掘 VSM 12DEF方法 无回溯搜索算法 双栈结构 电子邮件监控
分类号: TP311.13
类 型: 硕士论文
年 份: 2003年
下 载: 143次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet及其信息服务的爆炸性增长,继数据挖掘技术成功地用于传统的数据库领域之后,人们对网络信息挖掘特别是Web数据挖掘技术也开始研究。 本文首先介绍了数据挖掘的定义、功能、模型和算法;研究了数据挖掘的背景、技术演变过程和现状。 接着描述了数据挖掘系统的原型框架,并着重对最常用的三种Web数据挖掘技术进行了分析:Web日志挖掘采用的模型有较大的缺陷:精度较低、模型代价太大、效率不高,不适合电子文档的数据挖掘;向量空间模型VSM法和基于示例学习的文档过滤法其实都是一种文档比较、过滤模型的方法,这种方法的主要缺陷是向量的维数和计算开销非常巨大,挖掘效率低。处理包含模糊特性的事物,效果不是很好。对中心词进行模糊测度处理时,会产生较大的偏差。 最后,论文给出了一个实用的电子文档信息挖掘系统的解决方案。Internet上文档类型繁多,语种复杂,针对这些文档建立一个格式一致的数据库将是一项很复杂的事情。因此,本文采取了建立Internet服务器的文件资料镜像站点的方法,采用基于传统数据挖掘的逆过程,即先对电子文档进行挖掘后,把对用户有用的电子文档资料再进行建库,从而提高用户对信息处理的能力和处理速度。系统采用I2DEF方法建立了结构模型、动态模型和功能模型;设计了双扫描缓冲区的无回溯搜索算法及搜索过程的双栈结构;根据电子邮件监控系统和电子文档挖掘技术的特征,设计了Bayes分类器并使用了增强型方法,提出了一种运用电子文档挖掘技术的电子邮件监控系统;构建了C/S和B/S双重体系结构;并给出了挖掘过程的部分函数调用关系及系统挖掘的处理过程、部分处理程序。系统能够实现电子文档的挖掘、发布、管理、电子邮件监控、系统维护等功能。
|
全文目录
摘要 2-3 Abstract 3-6 第一章 引言 6-21 1.1 数据挖掘概述 6-7 1.2 数据挖掘的模型和算法 7-12 1.2.1 神经网络 7-9 1.2.2 决策树 9-10 1.2.3 其它的模型和算法 10-12 1.3 数据挖掘研究概况 12-19 1.3.1 数据挖掘的研究背景 12-13 1.3.2 数据挖掘技术的演变过程和研究现状 13-16 1.3.3 数据挖掘面临的问题 16-17 1.3.4 数据挖掘的未来研究方向 17-19 1.4 本文的研究内容 19-21 第二章 数据挖掘系统的原型框架 21-28 2.1 挖掘系统的原型结构 21-24 2.2 典型的数据挖掘系统及挖掘流程 24-28 2.2.1 典型的数据挖掘系统 24-25 2.2.2 数据挖掘工具 25-26 2.2.3 数据挖掘的步骤 26-28 第三章 Web数据挖掘技术的研究 28-37 3.1 Web数据挖掘概述 28-30 3.2 三种Web数据挖掘技术 30-37 3.2.1 Web日志挖掘 30-31 3.2.2 向量空间模型VSM法 31-34 3.2.3 基于示例学习的文档过滤法 34-35 3.2.4 小结 35-37 第四章 电子文档信息挖掘系统的设计与实现 37-67 4.1 系统设计原理及设计思想 37 4.2 利用I_2DEF方法建模 37-43 4.2.1 结构模型 37-39 4.2.2 动态模型 39-41 4.2.3 功能模型 41-43 4.3 挖掘算法设计 43 4.4 电子文档信息挖掘系统的数据字典 43-47 4.5 利用电子文档挖掘技术设计的电子邮件监控系统 47-53 4.5.1 在邮件监控系统中应用的文档挖掘技术 47 4.5.2 Internet E-mail报文结构解析 47-51 4.5.3 Bayes分类器的设计 51-52 4.5.4 引入文档挖掘技术的电子邮件监控系统的结构 52-53 4.6 系统挖掘的处理过程 53-61 4.6.1 预处理过程 54-56 4.6.2 文档信息的挖掘 56-60 4.6.3 续处理 60-61 4.7 系统的结构、配置及功能模块 61-66 4.8 系统的主要技术指标及特点 66-67 结束语 67 致谢 67-68 参考文献 68-71 附录A 攻读学位期间发表的论文和参加的项目目录 71
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|