学位论文 > 优秀研究生学位论文题录展示
基于Web的本体学习研究
作 者: 傅魁
导 师: 聂规划
学 校: 武汉理工大学
专 业: 管理科学与工程
关键词: 本体学习 领域概念获取 继承关系学习 属性关系学习 本体实例获取
分类号: TP393.092
类 型: 博士论文
年 份: 2007年
下 载: 901次
引 用: 14次
阅 读: 论文下载
内容摘要
本体能够支持人机之间、机器之间的信息交换、知识共享与重用,而得到越来越广泛的重视、研究和应用。然而,领域本体的匮乏却是困扰本体理论研究与现实应用的最主要瓶颈之一,本体学习应运而生,它能够以自动或半自动化的机器学习方式从多种不同的数据源中获取本体。相比国外较多本体学习研究而言,中文环境下本体学习刚刚拉开序幕。本文通过对基于Web的本体学习的研究,为具有实用价值的中文本体学习系统的研发提供理论方法基础。论文在借鉴国外现有的本体学习理论、方法和技术的基础上,结合中文自然语言处理的研究成果,对中文环境下领域本体的概念获取、继承关系学习、属性关系学习和本体实例获取的理论方法展开研究。论文主要研究内容如下:(1)通用本体学习系统的体系结构。设计了一种通用本体学习系统体系结构,由建立在资源层基础上的五大功能模块构成,分别为:资源管理模块、通用资源读写模块、数据预处理模块、本体抽取模块和本体评价与编辑模块。本文所提出的基于Web的本体学习的方法可组件式地无缝集成到该体系结构中。(2)多策略领域概念获取。提出了一种融合信息抽取、中文自然语言处理、语言学和统计等多种策略的领域概念获取算法。能根据页面块特征判定结果自适应选择信息抽取或基于隐马模型和候选名词短语约简的术语获取方法,研究了基于搜索引擎的术语间同义词关系识别方法以及领域概念的过滤算法。(3)继承关系学习。提出了基于Web分类目录判定的继承关系学习方法和基于语境自学习的继承关系学习方法。前者主要包括网页中Web分类目录判定算法、分类目录标注规则、隐式分类目录模式发现机制、标注文档合并中的歧义消解算法以及继承关系映像规则。后者主要包括继承关系语境的自学习机制和基于语境的继承关系获取算法。两种方法各有优缺点,具有互补性。(4)基于知网的属性关系学习。属性关系具有重要作用,但研究很少。首先采用基于语境自学的方法获取候选属性集合;分析认为候选属性集合由非属性词汇、无效属性和有效属性构成,提出了利用知网中属性义原所描述的上下位关系实现非属性词汇过滤和利用属性一一宿主关系实现无效属性过滤的算法;研究基于领域概念树的实现属性关系映射与修剪的基本规则,设计了相应的算法。(5)本体实例的获取。分析了Web网页中个体知识表示的主要形式,提出了基于本体的网页主题概念和个体知识表示特征的判定算法,重点设计了Web表格中本体实例获取的规则,包括本体实例表格识别规则、属性单元识别规则、属性值单元识别的基本规则和扩展规则、实例名称识别规则,给出了算法总体描述。
|
全文目录
摘要 5-7 Abstract 7-12 第1章 绪论 12-34 1.1 研究意义 12-13 1.2 国内外研究综述 13-28 1.2.1 本体学习分类 13-16 1.2.2 本体学习方法 16-22 1.2.3 本体学习系统 22-28 1.3 研究目标、研究内容及论文结构 28-34 1.3.1 研究目标 28-29 1.3.2 研究内容 29-31 1.3.3 论文组织结构 31-34 第2章 本体学习任务及学习系统体系结构 34-48 2.1 本体及本体代数 34-38 2.1.1 本体概念 34-35 2.1.2 本体形式化定义 35-37 2.1.3 本体内代数 37-38 2.2 本体学习任务 38-40 2.3 通用本体学习系统体系结构设计 40-47 2.3.1 设计原则 40-42 2.3.2 系统体系结构 42-43 2.3.3 资源层介绍 43-44 2.3.4 主要模块介绍 44-47 2.4 本章小结 47-48 第3章 多策略领域概念获取 48-75 3.1 领域概念获取概述 48-51 3.1.1 词与领域概念 48-49 3.1.2 领域概念获取的任务 49 3.1.3 中文环境下领域概念获取的难点 49-51 3.2 中文分词及名词短语识别研究 51-56 3.2.1 中文分词技术与分词系统 51-54 3.2.2 基本名词短语识别机理 54-56 3.3 多策略领域概念获取方法 56-73 3.3.1 算法基本思想 56-60 3.3.2 Web页面预处理 60 3.3.3 页面块特征判定和页面分块 60-62 3.3.4 短语页面块的术语获取 62-64 3.3.5 基于隐马模型和候选名词短语约简的术语获取 64-68 3.3.6 基于搜索引擎的同义词识别 68-71 3.3.7 领域概念过滤 71-73 3.4 本章小结 73-75 第4章 领域概念间继承关系学习 75-101 4.1 概述 75-76 4.2 继承关系学习方法 76-79 4.2.1 基于语境的方法 76-77 4.2.2 基于语言学的方法 77-78 4.2.3 基于统计的方法 78-79 4.3 基于Web分类目录判定的继承关系学习 79-93 4.3.1 算法基本思想 79-82 4.3.2 Web分类目录的判定 82-87 4.3.3 Web分类目录的标注 87-88 4.3.4 隐式分类目录发现与分类目录合并歧义消解 88-93 4.3.5 继承关系的映射 93 4.4 基于语境自学习的继承关系学习 93-100 4.4.1 算法基本思想 93-94 4.4.2 语境及语境自学习机制 94-97 4.4.3 基于语境的继承关系学习 97-100 4.5 本章小结 100-101 第5章 基于知网的属性关系学习 101-116 5.1 概述 101-102 5.2 知网及知网中属性知识 102-105 5.2.1 知网 102-104 5.2.2 知网中属性知识 104-105 5.3 基于知网的属性关系学习算法 105-115 5.3.1 算法基本思想 105-108 5.3.2 候选属性概念集获取 108 5.3.3 基于知网的候选属性集过滤 108-111 5.3.4 属性关系修剪 111-115 5.4 本章小结 115-116 第6章 本体实例获取 116-136 6.1 概述 116-117 6.2 Web信息抽取 117-121 6.2.1 基于自然语言处理的Web信息抽取 117-119 6.2.2 基于Wrapper的Web信息抽取 119-120 6.2.3 基于Ontology的Web信息抽取 120-121 6.3 基于本体的实例获取 121-135 6.3.1 算法基本思想 121-122 6.3.2 Web网页中个体知识表示特征 122-125 6.3.3 基于本体的网页主题概念和个体知识表示特征的判定 125-128 6.3.4 Web表格中本体实例的获取 128-135 6.4 本章小结 135-136 第7章 全文总结与研究展望 136-142 7.1 全文总结 136-141 7.1.1 全文主要内容 136-139 7.1.2 主要创新点 139-141 7.2 研究展望 141-142 参考文献 142-154 在读期间参加的科研项目 154-155 在读期间发表的论文 155-156 致谢 156
|
相似论文
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- AraOntoLT:基于阿拉伯语文本的本体学习框架,TP391.1
- 基于叙词表的领域本体构建方法研究,TP391.1
- Rails框架与语义Web技术在Web开发中的研究与应用,TP393.09
- UML类图转换到OWL DL本体的一种形式化方法的研究,TP391.1
- XML/Schema到OWL DL本体映射的研究,TP391.1
- 基于关系数据库的OWL本体建模技术的研究,TP311.13
- 基于本体的话题情感分析研究,TP391.1
- 面向文本的本体学习方法研究,TP391.1
- 本体学习中概念和关系抽取方法研究,TP391.1
- 基于文本的茶学本体学习方法研究,TP391.1
- 面向农业领域的本体学习建模研究,TP391.1
- 基于形式概念分析的本体学习方法研究,TP181
- 面向中文文本的本体学习方法研究,TP391.1
- 基于Text2Onto的中文本体学习技术研究,TP18
- 基于文本的半监督领域本体构建,TP391.1
- 基于本体的主动学习主题爬行的研究与实现,TP391.3
- 面向中文文本本体学习概念抽取的研究,TP391.1
- 融合FCA的图像情感本体学习方法,TP391.1
- 文本单元向知识单元转化的模型与映射算法,TP391.1
- 面向关系数据库的本体学习研究与实现,TP311.132.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|