学位论文 > 优秀研究生学位论文题录展示

网络数据源模式识别方法及策略研究

作 者: 刘富江
导 师: 王念滨
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 网络数据源 模式识别 深层网络 代码序列语法
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 16次
引 用: 1次
阅 读: 论文下载
 

内容摘要


当今,网络上存在许多在线的可搜索数据库,称为网络数据库。这些数据库的数量以惊人的速度增长,网络已经快速的被“加深”了。由于网络数据库中的数据隐藏在查询表单背后,不能被传统的搜索引擎索引,所以这种网络数据库又被称作深层网络,而含有查询表单的网页被称作网络数据源。不像传统的以提供链接为导航的表面网络,这种深层网络支持以查询的方式访问隐藏在查询接口背后的数据库。在2000年发布的调查中,深层网络中蕴含的信息量超过表面网络上千倍,而且这个比例仍在持续不断地上升。UIUC大学曾经在2004年对整个深层网络的规模作了一次估计,结果表明深层网络中可访问的网络数据库的数量超过了45万个。对于这些实际上数量无限的信息资源,大规模集成深层网络是必需的而且意义深远。针对被“保护”起来的数据,查询接口就成为了访问深层网络的入口。这些接口,例如:查询表单,通过查询条件访问背后的数据实体。为了模型化和集成化网络数据库,首要问题是理解查询表单。针对于深层网络数据集成的研究需要,基于国内外有关网络数据源模式识别的研究成果,本文提出了一种识别网络数据源模式的方法。该方法建立在统计分析的基础上,通过观察大量含有查询表单的数据源,发现查询表单表现的一般结构,从而确定可能存在的表单语法。虽然来源不同,但是表单语法引导着查询表单的生成。因此,本文建立了识别网络数据源模式的系统框架,通过设计一个代码序列语法和一个自动机解析器实现对表单语法的捕获,进而理解并自动提取网络数据源表单信息。实验结果表明这种方法是有效的,识别网络数据源模式的整体准确率和整体召回率均达到94%以上。

全文目录


摘要  5-6
Abstract  6-11
第1章 绪论  11-20
  1.1 课题研究背景及意义  11-13
    1.1.1 课题的背景  11-12
    1.1.2 课题的意义  12-13
  1.2 研究现状  13-18
    1.2.1 深层网络的研究现状  13-16
    1.2.2 网络数据源模式识别研究现状  16-18
  1.3 主要研究内容和预期研究成果  18
  1.4 本文的组织结构  18-20
第2章 网络数据源模式识别相关研究  20-29
  2.1 网络数据源模式识别的主要问题和方法  20-23
    2.1.1 网络数据源模式识别的主要问题  20-21
    2.1.2 一种网络数据源模式识别方法  21-23
  2.2 模式匹配  23-27
    2.2.1 模式匹配的定义及分类  23-24
    2.2.2 模式匹配的方法  24-27
  2.3 本章小结  27-29
第3章 网络数据源模式识别方法及策略  29-49
  3.1 研究概述  29-32
  3.2 网络数据源模式识别框架  32-36
    3.2.1 网络数据源模式识别框架  32
    3.2.2 相关概念描述  32-36
  3.3 解析网络数据源模式  36-42
    3.3.1 观察查询表单  36-39
    3.3.2 发现协定结构  39-40
    3.3.3 假设表单语法  40-42
    3.3.4 解析方法及策略  42
  3.4 代码序列语法  42-45
    3.4.1 代码序列语法的定义  42-43
    3.4.2 代码序列语法规则  43-44
    3.4.3 最大匹配原则  44-45
  3.5 自动机解析器  45-48
    3.5.1 有穷自动机的工作原理  45-47
    3.5.2 表单元素序列  47
    3.5.3 基于代码序列语法规则构建有穷自动机  47-48
  3.6 本章小结  48-49
第4章 网络数据源模式识别系统及实现  49-65
  4.1 系统设计目标  49
  4.2 网络数据源模式识别系统体系结构  49-51
  4.3 基于代码序列语法的系统功能实现  51-60
    4.3.1 过滤器  51-54
    4.3.2 分析器  54-57
    4.3.3 分组器  57
    4.3.4 构造器  57-60
  4.4 应用平台及工具  60
  4.5 程序结构设计  60-64
  4.6 本章小结  64-65
第5章 实验及结果分析  65-70
  5.1 数据集  65
  5.2 实验衡量标准  65-66
  5.3 实验结果分析  66-68
  5.4 代码序列语法与2P 语法  68-69
  5.5 本章小结  69-70
结论  70-71
参考文献  71-76
攻读硕士学位期间发表的论文和取得的科研成果  76-77
致谢  77

相似论文

  1. 基于流形学习的高维流场数据分类研究,V231.3
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  4. 基于回波包络的超声波入侵探测在军队警戒巡逻中的应用,E919
  5. 空间信息处理中基于模糊技术的数学模型的改进,O159
  6. 基于API Hook技术的Bot检测方法的研究与实现,TP393.08
  7. 基于广义动态模糊神经网络的肌电信号模式识别系统,TP183
  8. 表格手写内容识别系统的设计与实现,TP391.41
  9. PID参数自整定的研究与应用,TP273
  10. 河南省文化遗产价值指标体系研究,G122
  11. 动作表面肌电信号的非线性特性研究,TH772
  12. 基于CUDA的视频火灾检测系统,TP391.41
  13. 美元纸币关键信息的图像检测以及号码识别,TP391.41
  14. 基于SIFT特征和SVM的场景分类,TP391.41
  15. 无缝钢管超声涡流一体化自动检测系统的研究与开发,TH878.2
  16. 基于DCE-MRI的乳腺病灶良恶性计算机辅助诊断研究,TP391.7
  17. 基于LabVIEW的典型通信信号调制、参数识别及模拟实验研究,TP274
  18. 智能手机二维码识别系统设计与实现,TN929.53
  19. 心音信号特征分析与识别算法的研究,R318.04
  20. 交通标志实时检测与识别技术研究,TP391.41
  21. 无线电干扰信号发现与识别的研究,TN911.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com