学位论文 > 优秀研究生学位论文题录展示

基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用

作　者: 杨文忠
导　师: 章兢
学　校: 湖南大学
专　业: 控制理论与控制工程
关键词: 信息检索 Web文本数据挖掘文本聚类近似网页聚类智能搜索系统
分类号: TP393.092
类　型: 硕士论文
年　份: 2005年
下　载: 530次
引　用: 2次
阅　读: 论文下载

内容摘要

随着Internet信息量的飞速增长,数据挖掘技术的日益成熟及XML语言的崛起,Web数据挖掘技术迅速成为信息检索领域的研究热点。本文对Web数据挖掘技术、搜索引擎技术、XML语言、文本聚类技术作了系统的研究,介绍了其特点、原理、方法和研究现状。如今Internet已经成为了人们获取各种信息的主要来源,利用常用搜索引擎系统能够获得大量的相关信息,但是这些信息太多太乱,用户难以迅速找到真正感兴趣的网页。对此,本文深入研究了如何对搜索引擎返回的结果进行文本数据挖掘以获得用户感兴趣的搜索模式。本文从Internet用户的兴趣度出发,提出了一种基于近似网页聚类算法的Web文本挖掘技术。该技术根据用户的兴趣程度形成词汇库;利用模糊聚类方法获得分词词典组;在用户利用常用搜索引擎系统进行信息检索时,采用MD5算法消除搜索引擎返回的重复页,采用近似网页聚类算法,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;为进一步满足用户的兴趣需要,最后提出了一种基于马尔可夫链的Web访问序列挖掘算法,对返回给用户的网页簇进行二次排序,以保证用户快速、准确地获得真正关心的信息。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,本文研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。作者设计了一个基于上述思想的智能搜索系统,并用于一个办公自动化系统。该系统运行速度快,能够兼顾查全率和查准率,大大提高了搜索效率。实践证明本文所研究与开发的成果具有实用性和有效性。

全文目录

摘要  7-8
Abstract  8-9
第1章绪论  9-15
  1．1 Web数据挖掘  9-10
  1．2 Web数据挖掘与Web信息检索  10-12
  1．3 基于XML的Web数据挖掘  12-13
  1．4 选题背景及意义  13
  1．5 本文的组织结构  13-15
第2章 Web数据挖掘  15-27
  2．1 概述  15-16
  2．2 Web数据挖掘技术  16-18
    2．2．1 Web数据挖掘的基本原理  16-17
    2．2．2 结构挖掘  17-18
    2．2．3 Web使用记录挖掘  18
    2．2．4 内容挖掘  18
  2．3 Web文本数据挖掘  18-24
    2．3．1 概述  18-19
    2．3．2 Web文本挖掘的工作流程  19
    2．3．3 特征提取  19-21
    2．3．4 文本分类和文本聚类  21-23
    2．3．5 模型质量的评价  23-24
  2．4 XML语言及其在Web数据挖掘中的应用  24-27
第3章搜索引擎技术  27-33
  3．1 概述  27-28
    3．1．1 概念  27
    3．1．2 分类  27-28
    3．1．3 主要搜索引擎  28
  3．2 搜索引擎的工作原理  28-29
  3．3 搜索引擎的工作流程  29
  3．4 搜索引擎的关键技术——网络蜘蛛  29-32
    3．4．1 原理描述  29-30
    3．4．2 算法描述  30-32
  3．5 搜索引擎的发展现状及存在的问题  32-33
第4章一种基于近似网页聚类的Web文本数据挖掘技术  33-55
  4．1 工作流程  33-34
  4．2 生成分词词典组  34-36
    4．2．1 模糊聚类分析  34
    4．2．2 模糊等价关系与聚类分析  34-35
    4．2．3 基于模糊相似关系的模式分类  35
    4．2．4 基于模糊聚类分析的词汇聚类  35-36
  4．3 数据预处理  36-45
    4．3．1 数据源  36
    4．3．2 Web文本信息提取  36-39
    4．3．3 去噪  39
    4．3．4 分词  39
    4．3．5 特征提取  39-41
    4．3．6 文本表示  41-43
    4．3．7 词频统计  43
    4．3．8 降维  43-45
  4．4 重复网页检测  45-47
    4．4．1 算法基础  45
    4．4．2 算法描述  45-47
    4．4．3 算法分析  47
  4．5 近似网页聚类  47-51
    4．5．1 算法基础  47-48
    4．5．2 算法描述  48-49
    4．5．3 算法分析及评测  49-50
    4．5．4 实验结果  50-51
  4．6 网页簇排序  51-53
    4．6．1 算法思想  51
    4．6．2 算法描述  51-53
  4．7 应用特点  53-54
  4．8 小结  54-55
第5章应用实例——TW-OA办公自动化系统  55-72
  5．1 系统架构  56
  5．2 用户体验层  56-57
    5．2．1 主要功能  56
    5．2．2 采用的主要技术  56-57
  5．3 应用服务  57-59
    5．3．1 个人信息管理  57
    5．3．2 交流和协作管理  57
    5．3．3 视频会议管理  57
    5．3．4 网上学习和培训  57-58
    5．3．5 公文管理  58
    5．3．6 办公事务管理  58
    5．3．7 电子公章管理  58-59
    5．3．8 文档管理  59
    5．3．9 合同管理  59
    5．3．10 信息发布管理  59
  5．4 基础服务  59-61
    5．4．1 用户管理和个性化服务  59-60
    5．4．2 工作流服务  60
    5．4．3 流程表单设计和数据绑定  60
    5．4．4 流程设计和自定义工作流  60-61
    5．4．5 流程角色和用户权限管理  61
    5．4．6 流程跟踪、监控、查询和统计  61
    5．4．7 文档管理服务  61
    5．4．8 跟踪管理服务  61
    5．4．9 计划管理服务  61
    5．4．10 智能搜索  61
  5．5 智能搜索子系统  61-70
    5．5．1 系统结构  61-62
    5．5．2 系统工作流程  62-63
    5．5．3 主要功能模块  63-70
  5．6 系统特色  70-71
  5．7 系统运行情况  71-72
结论  72-74
参考文献  74-78
致谢  78-79
附录A(攻读学位期间发表的论文)  79-80
附录B(攻读学位期间科研)  80

相似论文

隐式用户兴趣挖掘的研究与实现,TP311.13
生物医学领域检索系统查询扩展技术研究,TP391.3
面向海量邮件的检索系统研究与实现,TP393.098
演化聚类算法及其应用研究,TP311.13
基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
基于本体的食品投诉文档文本聚类研究,TP391.1
面向短消息文本的聚类技术研究与应用,TP391.1
基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
排序学习损失函数的研究,TP181
基于点击的用户聚类的研究,TP311.13
英汉跨语言问答系统中的文档语义检索,TP391.1
基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
基于语义Web的信息检索技术研究,TP391.3
基于OWL的地名本体构建与检索机制研究,P208
面向地名本体服务的空间信息检索研究,P208
基于内容与链接的页面价值算法研究,TP393.092
J2EE集成开发框架及其应用,TP311.52
基于用户兴趣模型的个性化搜索引擎研究与分析,TP391.3
SOM算法的改进及其在中文文本聚类的应用,TP391.1
基于移动搜索用户关联的信息检索研究,TP391.3