学位论文 > 优秀研究生学位论文题录展示

基于Web的信息智能感知技术及应用

作　者: 赵城利
导　师: 易东云
学　校: 国防科学技术大学
专　业: 系统分析与集成
关键词: web挖掘自然语言处理网页去噪文本分类
分类号: TP18
类　型: 硕士论文
年　份: 2004年
下　载: 214次
引　用: 0次
阅　读: 论文下载

内容摘要

Web信息空间中蕴涵着具有巨大潜在价值的知识,从这些海量数据源中发现有用的知识或模式是当今的研究热点。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。Web异常庞大的数据量,数据的无结构与半结构性以及Web极强的动态性使得如何对Web进行有效的资源和知识发现成为一个复杂的问题。基于Web的智能感知技术旨在探索一条能够从Web海量的信息中高效地获取感兴趣部分,并将其转化成人类能直接利用的知识的自动化、智能化的道路,具有重要的理论与实践意义。本文通过对Web挖掘和自然语言处理技术的研究,在两个研究方向间建立起有机的联系,将自然语言理解引入Web挖掘领域,从语义的角度对Web挖掘进行研究.。本文还建立一个基于Web的信息智能感知模型,探索出了一条从及时感应Web上数据流的变化、自动获取Web上感兴趣信息、再到将这些信息智能转化为可为人类直接决策参考之用的知识的新的完整的研究路线。本文: 1) 设计并实现了一种基于风格树模型的网页噪声去除方法,实验证明该方法可以显著地改善Web挖掘的质量; 2) 构造了一种改进的基于N-最短路径统计分词方法,旨在兼顾高召回率和高效率。该方法主要引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型; 3) 提出了一种基于句法分析的仿人文本分类方法,该分类方法充分分析了金融领域文本的特点,对该领域内文本分类取得了较好的效果。实验证明该方法可以显著地改善文本分类系统的性能。

全文目录

摘要  8-9
ABSTRACT  9-10
第一章绪论  10-14
  1．1 问题的提出  10-11
  1．2 国内外研究动态  11-12
  1．3 主要研究内容  12-14
    1．3．1 主要内容  12
    1．3．2 论文结构  12-14
第二章基本概念  14-29
  2．1 Web挖掘的概念及研究现状  14-23
    2．1．1 Web挖掘概念及研究内容  14
    2．1．2 Web挖掘的特点  14-15
    2．1．3 Web挖掘的分类及研究现状  15-23
  2．2 自然语言理解的概念及研究现状  23-29
    2．2．1 自然语言理解的概念及研究内容  23-27
    2．2．2 自然语言理解的研究现状  27-29
第三章 Web信息挖掘  29-50
  3．1 风格树网页去噪模型  29-40
    3．1．1 Web站点爬行  30-34
    3．1．2 风格树模型  34-37
    3．1．3 噪声检测  37-38
    3．1．3 实验结果  38-40
  3．2 Web文本自然语言处理  40-50
    3．2．1 自然语言处理中的统计模型  40-43
    3．2．2 改进的N-最短路统计分词  43-46
    3．2．3 基于 HMM的词性标注  46-47
    3．2．4 概率型句法分析  47-50
第四章 Web金融信息感知模型  50-61
  4．1 引言  50
  4．2 基于语义框架的金融事件提取  50-53
    4．2．1 金融事件的含义  50-51
    4．2．2 基于语义框架的金融事件模板  51-53
  4．3 仿人自动文本分类方法  53-61
    4．3．1 基于句法分析的文本分类  55-56
    4．3．2 K最近邻文本分类  56-58
    4．3．3 仿人分类算法描述  58-59
    4．3．4 分类质量评价  59-61
第五章结束语  61-63
  5．1 主要工作和创新点  61-62
    5．1．1 主要工作  61
    5．1．2 创新点  61-62
  5．2 进一步的工作  62-63
致谢  63-64
参考文献  64-67
附录硕士阶段的主要工作  67

基于Web的信息智能感知技术及应用

内容摘要

全文目录

相似论文