学位论文 > 优秀研究生学位论文题录展示
基于本体的Web航空产品型号信息抽取技术研究
作 者: 袁利华
导 师: 马静
学 校: 南京航空航天大学
专 业: 管理科学与工程
关键词: 本体 信息抽取 模式 文档对象模型 航空产品
分类号: V22
类 型: 硕士论文
年 份: 2009年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
当今在以信息技术为代表的新军事革命浪潮的推动下,国防科技情报的形式发生了重大变化。国防产品信息格式更加多样化,且代号往往是英文、数字和下划线的不确定组合,有的还有改进型号。如何快速从Internet散乱信息中及时加工、处理、提炼关键情报,对有效增强国防信息服务工作有着重要的现实意义。本文在研究了本体和XML相关技术,以及对半结构化Web信息抽取总体解决方案比较研究的基础上,结合航空产品型号信息的特点,着重研究了Web航空产品型号信息抽取规则的制定方法以及型号信息数据抽取的总体设计方案。在抽取规则制定部分,依据抽取的深度不同,尝试将抽取规则分为记录选取规则和数据模板匹配规则(包括属性匹配规则和代号分类规则),此规则用XML表达。其中属性匹配规则部分提出了一种新的抽取规则生成算法,该算法在领域本体的概念层次关系、属性特征和实例的结构本体指导下,匹配过程中自动学习并获取抽取模式。在Web信息抽取部分,提出了基于本体和模板匹配相结合的航空产品型号信息抽取的方法,设计了一个用户指导的交互信息抽取系统。该系统首先获取指定的Web页面,并利用本文设计的HTML文档清洗算法,对网页进行清洗;利用HTML JTidy将其转换为格式良好的XML文档,然后利用XML解析器将该XML文档转化为DOM树,根据用户指定XPath表达式获取感兴趣的数据块,并通过上述设计的航空产品型号元数据抽取规则实现数据的抽取,将结果根据领域词典和本体进行矛盾消解和数据规整,最后标注保存为结构化的形式。本文最后还设计开发了面向Web的航空产品型号信息抽取系统,不仅验证了理论的可行性与有效性,同时也向信息抽取的实际应用迈进了一步。
|
全文目录
摘要 4-5 Abstract 5-10 第一章 绪论 10-18 1.1 研究背景 10-12 1.2 国内外研究现状 12-15 1.3 本文的主要研究目标及内容 15-17 1.4 本文的内容安排 17-18 第二章 基础技术介绍与分析 18-31 2.1 本体概述 18-22 2.1.1 本体的相关概念 18-19 2.1.2 本体的描述语言 19-22 2.1.2.1 XML 和RDF/RDF(s) 19-21 2.1.2.2 OWL 21-22 2.1.3 本体在本文中的应用 22 2.2 正则表达式 22-24 2.3 XML 技术在信息抽取中的应用 24-31 2.3.1 XML 相关技术 25-29 2.3.1.1 XML 的结构特征和模式 26-28 2.3.1.2 DOM 树 28-29 2.3.2 XML 技术在本文中的应用 29-31 第三章 基于本体的 Web 航空产品型号信息抽取方法设计 31-41 3.1 半结构化数据 31-32 3.1.1 半结构化数据定义及其来源 31 3.1.2 半结构化数据的特点 31-32 3.1.3 半结构化航空产品型号数据特点 32 3.2 Web 信息抽取介绍 32-36 3.2.1 信息抽取的概念及功能 32-33 3.2.2 信息抽取的方式比较 33-35 3.2.3 本文信息抽取的特点 35-36 3.3 抽取规则生成方法研究 36-41 3.3.1 相关概念 36 3.3.2 领域知识分析 36-37 3.3.3 抽取规则定义 37-41 第四章 基于本体的航空产品型号信息抽取设计与实现 41-61 4.1 基于本体的航空产品型号信息抽取系统的总体设计 41-42 4.1.1 系统的设计原则 41 4.1.2 基于本体的航空产品型号信息抽取系统的总体结构 41-42 4.2 AIE 系统设计流程 42-44 4.3 文档获取与文档结构分析 44-48 4.3.1 文档获取 44 4.3.2 文档清洗转换 44-47 4.3.3 数据块的定位方法 47-48 4.4 航空产品型号信息规则模式匹配 48-55 4.4.1 领域词典的构建及领域本体的给定 49-53 4.4.1.1 构建领域词典 49-50 4.4.1.2 领域本体给定 50-53 4.4.2 航空产品数据匹配过程 53-55 4.4.2.1 记录选取 53 4.4.2.2 数据模板匹配 53-55 4.5 数据规整存入关系数据库 55-56 4.6 AIE 系统理论验证 56-60 4.6.1 本体管理 57 4.6.2 文档获取与文档结构分析模块实现界面 57-59 4.6.3 航空产品型号信息规则模式匹配界面 59-60 4.7 测试结果分析 60-61 第五章 总结与展望 61-63 5.1 本文总结 61 5.2 不足之处和展望 61-63 参考文献 63-66 致谢 66-67 在学期间的研究成果及发表的学术论文 67
|
相似论文
- 基于流形学习的高维流场数据分类研究,V231.3
- 溃坝生命损失风险评价的关键技术研究,TV122.4
- 基于新医学模式的儿童医疗环境设计研究,TU246.1
- 万科模式的居住小区设计研究,TU984.12
- 径向振动模式压电变压器的等效电路模型与应用,TM406
- 任务型教学在农村初中英语教学中的应用研究,H319
- 云南少数民族题材影视作品的叙事模式分析,J905
- 高中函数教学研究与实践,G633.6
- 高中政治新课程改革课堂教学模式整合探索,G633.2
- 海量多数据库集成系统的查询处理研究,TP311.13
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- “小团队”健美操教学模式改善高职院校女生心理健康状况的研究,G831.3
- 山东省高校科研项目集成管理模式研究,G644
- 技师培养方式改革的研究,G719.2
- 社会消费方式变迁下的服装终端空间变化之研究,TS941.1
- 高原湖泊湖区可持续发展评价体系及模式研究,X22
- 基于目标成分“敲出/敲入”质量控制模式的中药姜黄抗氧化药效物质辨识,R285
- 文章难易度与主题熟悉度对英语学习者听力影响的个案研究,G633.41
- 试论地方政府的伦理决策,D625
中图分类: > 航空、航天 > 航空 > 飞机构造与设计
© 2012 www.xueweilunwen.com
|