学位论文 > 优秀研究生学位论文题录展示
面向中文文本的本体构建和自动扩充
作 者: 唐晋韬
导 师: 王挺
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 本体构建 本体自动扩充 本体构建方法学 支持向量机 多类分类 中文时间描述
分类号: TP391.1
类 型: 硕士论文
年 份: 2005年
下 载: 257次
引 用: 2次
阅 读: 论文下载
内容摘要
语义Web是Internet发展的重要趋势,其目的之一在于赋予万维网上所有资源唯一的标志,并在资源之间建立机器可处理的各种语义联系。语义万维网以明确的、形式化的方式来表示信息资源,能够提高异构系统的互操作性,促进知识共享和信息处理技术的发展。而本体作为语义Web的一个重要服务层,在基于内容的访问、互操作和通信中扮演了核心的角色。 本体是从哲学研究中发展出来的概念,在计算机领域,本体是用于描述或表达某一领域知识的一组概念或术语,可用于组织知识库较高层次的知识抽象,也可用来描述特定领域的知识。 目前本体构建和本体自动扩充的研究在语义Web领域越来越受到重视。许多研究者都提出了在各自的应用领域适用的一些本体构建方法,也有研究者在逐步地丌始研究如何从文本中挖掘本体和扩充本体实例。但这些方面的研究都还处于一个很不成熟的阶段。这不仅仅与目前的处理技术水平相关,更多的是因为目前语义Web的研究处于起步阶段,在本体的构建等理论方面还有许多重要的问题有亟待深入研究。 本文在对前人的工作进行分析和综合的基础上,研究了一种适合较小领域本体建立的本体构建方法,并对中文时间描述进行深入的分析,设计了一种时间本体结构,并构建了面向中文的时间本体。在此基础上,本文进一步进行了本体自动扩充的实验,采用有监督的SVM算法进行时间实例分类。针对中文时间描述的特点,本文选择了词汇特征和词法特征来构造特征向量。针对基于本体的信息抽取的特点,特别是本体的自动扩充问题,本文在分析目前流行的几种分类策略的基础上,对基于SVM二类分类器构造多类分类器的问题进行了研究,设计了一个基于本体概念体系的多类分类策略。本文测试了不同的分类策略和核函数对分类结果的影响,实验结果表明,相对于其它的常用多类分类策略,本文的多类分类策略在时间本体自动扩充任务中表现出较好的性能。
|
全文目录
图目录 6-7 表目录 7-8 摘要 8-9 ABSTRACT 9-10 第一章 绪论 10-16 §1.1 概述 10-11 §1.2 语义WEB和本体的研究与应用 11-13 §1.3 本体研究目前面临的问题 13-14 §1.4 本文主要工作 14-15 §1.5 本文结构 15-16 第二章 相关工作 16-31 §2.1 本体构建方法学 16-19 §2.2 时间概念和时间本体研究 19-22 2.2.1 时间理论和时间模型研究 19-20 2.2.2 时间语义和时间本体研究 20-22 §2.3 本体挖掘和自动扩充相关工作研究 22-30 2.3.1 综述 22-23 2.3.2 机器学习与常用统计模型 23-27 2.3.3 知识抽取相关工作研究 27-30 §2.4 小结 30-31 第三章 面向中文文本的时间本体构建 31-42 §3.1 时间描述研究 31-34 3.1.1 TIMEX对英文时间的研究 31-33 3.1.2 中文时间描述分析 33-34 §3.2 本体构建的指导方法 34-37 3.2.1 基本思想和指导原则 34-35 3.2.2 IEEE1074-1995标准 35-36 3.2.3 中文时间本体构建的方法 36-37 §3.3 面向中文文本的时间本体结构 37-41 §3.4 小结 41-42 第四章 本体自动扩充 42-53 §4.1 基本思想 42-43 §4.2 支持向量机 43-46 4.2.1 理论背景综述 43-44 4.2.2 模型描述 44-46 §4.3 系统结构 46-48 §4.4 特征设计 48-51 4.4.1 词汇特征 48-50 4.4.2 词法特征 50-51 4.4.3 唯一特征向量生成算法 51 §4.5 小结 51-53 第五章 多分类器研究 53-64 §5.1 将多类分类分解的方法 53-58 5.1.1 “一对一”和“一对其它” 53-55 5.1.2 SVM-Tree Algorithm 55-56 5.1.3 Adaptive Code 56-58 §5.2 内部改进的方法 58-60 5.2.1 GA—SVM 58-60 §5.3 基于本体概念体系的多分类器 60-63 §5.4 小结 63-64 第六章 实验与分析 64-70 §6.1 评价方法 64-66 §6.2 实验语料 66-67 §6.3 结果分析 67-69 §6.4 小结 69-70 第七章 结束语 70-71 致谢 71-73 攻读硕士期间发表的论文 73-74 参考文献 74-78 附录A 面向中文描述的时间本体 78-91
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 城市污水处理厂中A~2O工艺过程的建模研究,X703
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|