学位论文 > 优秀研究生学位论文题录展示
基于本体的Deep Web数据源分类和查询接口模式抽取
作 者: 罗斐
导 师: 毛宇光
学 校: 南京航空航天大学
专 业: 计算机软件与理论
关键词: Deep Web 本体 查询接口 数据源分类 向量空间模型 构造特征 模式抽取
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 49次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网按“深度”可以分为Deep Web和Surface Web。与通过超链接访问的Surface Web不同,Deep Web中的信息只能通过向表单提交查询来获得。Surface Web上的信息多为非结构化信息。Deep Web则正好相反,其中蕴含的信息绝大多数是结构化信息,因而受到研究人员的重视。Deep Web数据源分类和Deep Web查询接口模式抽取是Deep Web信息获取的关键技术。根据Deep Web信息的特点,本文使用本体技术解决Deep Web信息获取技术上的一些难题,有效地解决了传统方法的局限性。首先,本文基于互动百科、CWB中文词库中的知识,根据Deep Web信息的特点,使用Protege本体编辑器,通过人工方式为图书、电影、音乐、数码产品、房地产这五个领域建立了中文本体,为Deep Web数据源分类和Deep Web查询接口模式抽取提供了中文本体知识库的支持。其次,针对中文Deep Web网站,提出了基于查询接口文本的Deep Web数据源分类方法。该方法使用查询接口中的文本信息作为分类属性集,基于空间向量模型,利用本体构造特征,提高了分类准确率。最后,提出了基于本体的Deep Web查询接口模式抽取方法,使得计算机能够在语义层次上理解查询接口,并在领域本体的帮助下将查询接口模式转换为本体模式。本文对5个领域200个查询接口抽取模式信息,实验结果表明本文方法的准确率和召回率均高于传统的基于启发式规则的方法。
|
全文目录
摘要 4-5 ABSTRACT 5-11 第一章 绪论 11-16 1.1 研究背景与意义 11-12 1.2 国内外研究现状 12-14 1.3 研究内容与创新 14 1.4 论文的组织结构 14-16 第二章 本体与Deep Web 信息获取技术概述 16-24 2.1 Deep Web 概述 16-19 2.1.1 查询接口的定义 16-18 2.1.2 动态SQL 语句生成过程 18 2.1.3 动态网页技术 18-19 2.2 Deep Web 信息获取技术 19-21 2.2.1 Deep Web 数据源分类 20 2.2.2 Deep Web 查询接口模式抽取 20-21 2.3 本体概述 21-23 2.3.1 本体的定义及应用 21-22 2.3.2 OWL 本体描述语言 22-23 2.4 小结 23-24 第三章 中文Deep Web 本体生成 24-32 3.1 Deep Web 信息的特点 24-26 3.2 本体对Deep Web 信息获取的意义 26 3.3 中文本体的构建 26-30 3.3.1 本体构建的方法 26-27 3.3.2 知识的来源 27-28 3.3.3 图书领域中文本体建立 28-30 3.4 小结 30-32 第四章Deep Web 数据源分类研究 32-45 4.1 问题描述 32-33 4.2 Deep Web 数据源表示模型的建立 33-39 4.2.1 分类属性的来源 33-36 4.2.2 分类属性的获取 36-39 4.2.3 特征权值的确立 39 4.3 分类算法的选择 39-40 4.4 基于本体的特征构造方法 40-43 4.4.1 语义关系分析 41-42 4.4.2 基于本体构造特征 42-43 4.5 实验与结果分析 43-44 4.6 小结 44-45 第五章Deep Web 查询接口模式抽取研究 45-57 5.1 问题描述 45-46 5.2 查询接口模式分析 46-48 5.3 基于本体的Deep Web 查询接口模式抽取方法 48-55 5.3.1 系统结构图 48 5.3.2 查询接口解析 48-50 5.3.3 属性输入值节点名字获取 50-54 5.3.4 查询接口本体建立 54-55 5.4 实验与结果分析 55-56 5.5 小结 56-57 第六章 总结与展望 57-59 6.1 总结 57 6.2 展望 57-59 参考文献 59-63 致谢 63-64 在学期间的研究成果及发表的学术论文 64
|
相似论文
- 基于停用词处理的汉语语音检索方法,TP391.1
- 哲学思想在指导中学数学教学中的作用,G633.6
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于本体的语义检索研究,TP391.3
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 拉图尔的行动者网络理论研究,N02
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 220kV输电线路除冰机器人机械本体研究,TP242
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 基于语义的Web服务发现研究,TP393.09
- 本体在智能小区中的应用研究,TP391.1
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 普适计算下智能空间的哲学探究,N02
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 企业级软件组件质量保障与快速部团策略的研究,TP311.53
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|