学位论文 > 优秀研究生学位论文题录展示
深网查询接口模式识别与分类方法的研究
作 者: 任忠良
导 师: 刘磊
学 校: 吉林大学
专 业: 软件工程
关键词: DEEP WEB 特征信息识别 查询接口 贝叶斯
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 24次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,大量丰富而有价值的数据在网络中趋于深化,隐藏在查询接口后面的在线数据库中。人们只能通过向特定的Deep Web查询接口提交查询来获取这些动态信息。因此,如何为用户提供面向同一领域的集成查询接口成为人们研究的热点。获取接口所属的领域、包含的属性以及查询能力,即对接口特征信息进行识别并对接口按领域及查询条件的不同进行分类是建立Deep Web集成接口的两个重要问题。本文针对这两方面展开研究。具体工作如下:在识别方面,针对计算、维护复杂以及匹配歧义等问题,提出一种基于标签分组排序的接口识别算法--SortIden:与传统方法中将每一个查询接口作为一个识别单位不同,该方法首先将接口中的标签按排列的方向性和不规则性进行编码并分组;然后以每一个标签组作为一个独立单位进行特征信息识别,提出了简单属性、复合属性的识别方法以及孤立文本的处理方法,通过对标签下标的约束确定与元素匹配的文本;最后,通过两次聚类有效解决了接口层次嵌套问题。考虑到接口模式的多样性和复杂性,当整个接口排列不整齐的时候,提出了基于二维空间切割的接口识别算法—CuttingIden:该方法按标签排列的不规则性及视觉差异将一个接口切割成不同的单元,论文给出了切割的策略及算法;通过标签的横坐标或纵坐标进行约束,给出了以单元为单位进行接口特征信息识别的方法。在分类方面,本文在贝叶斯分类器的基础上兼顾分类效率、准确率、计算量等因素,提出了一种基于贝叶斯的优化分类器——BayesOpt:给出了分类器节点结构设计;提出将对接口查询条件的关注转换成分类器中节点的权值,通过权值大小排列分类器节点的顺序;论文给出了分类器的形成过程、分类器的自学习算法以及采用分类器进行分类的过程。最后,通过实验验证了本文所提方法的合理性。SortIden与CuttingIden有效解决了识别过程中计算、维护复杂以及匹配歧义等问题;与传统分类器相比,BayesOpt在分类效率、准确率、计算量等方面都有明显改善。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 引 言 8-15 1.1 Deep Web 8 1.2 Deep Web 数据集成系统 8-10 1.3 Deep Web 接口识别 10-12 1.3.1 接口识别的必要性 10 1.3.2 接口的特征信息 10 1.3.3 接口识别相关问题 10-12 1.4 Deep Web 接口的分类 12-13 1.4.1 接口分类的目的 12-13 1.4.2 接口分类相关问题 13 1.5 主要研究工作和内容安排 13-15 第2章 相关工作 15-21 2.1 Deep Web 接口识别研究现状 15-18 2.1.1 接口信息处理的一般方法 16 2.1.2 DeepWeb 接口识别的著名原型算法 16-18 2.2 Deep Web 接口识别重点及难点 18-19 2.3 Deep Web 接口分类的研究现状 19-20 2.4 Deep Web 接口分类方法存在的不足 20-21 第3章 DEEP WEB 接口识别策略 21-28 3.1 基于二维切割的接口识别算法 21-28 3.1.1 接口特征信息的二维化处理 21-23 3.1.2 特征信息的识别 23-28 第4章 DEEP WEB 接口分类策略 28-33 4.1 基于贝叶斯的优化分类器 28-32 4.1.1 分类器的结构 28 4.1.2 分类器的形成 28-30 4.1.3 分类器的自学习 30-32 4.2 应用BayesOpt 进行分类 32-33 第5章 实验测试与分析 33-41 5.1 测试数据集 33-34 5.1.1 TEL-8 数据集 33 5.1.2 随机数据集 33-34 5.1.3 合成数据集 34 5.2 SortIden 算法有效性 34-36 5.3 CuttingIden 算法有效性 36-37 5.4 SortIden 算法与CuttingIden 算法对比 37-39 5.5 BayasAdapt 算法有效性 39-41 结束语 41-43 致谢 43-44 参考文献 44-48 致谢 48
|
相似论文
- 多传感器信息融合及其在可穿戴计算机上的应用,TP202
- 黄磷储罐区安全评价方法研究,TQ126.317
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- FPSO在石油卸载过程中的风险评估,U698
- 认知无线电系统合作频谱感知中感知数据错误化攻击防御技术,TN925
- 基于无线传感器网络的智能家居安全监测系统的研究与应用,TP273.5
- 基于贝叶斯网络的软件风险管理模型研究与实现,TP311.52
- 基于多实体贝叶斯网络的空中目标意图识别方法研究,E072
- Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
- 基于非线性滤波的小卫星姿态确定及控制研究,V448.2
- Deep Web数据清洗方法研究及应用,TP393.09
- Deep Web查询接口集成及搜索策略研究,TP393.09
- 基于领域知识的Deep Web接口发现研究,TP393.09
- Deep Web数据集成系统中数据标注研究,TP393.09
- Deep Web数据抽取及语义标注研究,TP393.09
- Deep Web数据库的选择研究,TP311.13
- Bayesian网络在制动系统故障诊断中的应用及系统开发,U472.9
- 贝叶斯网在农业专家系统中的应用研究,S126
- 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
- DWIIS系统中查询接口集成机制的研究,TP393.09
- Deep Web数据源发现和选择研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|