学位论文 > 优秀研究生学位论文题录展示
领域概念自动抽取研究
作 者: 姚贤明
导 师: 郭剑毅
学 校: 昆明理工大学
专 业: 计算机软件与理论
关键词: 领域术语抽取 词语共现 领域概念内涵获取 领域概念外延(实例)学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 112次
引 用: 0次
阅 读: 论文下载
内容摘要
领域本体在语义网、信息抽取、知识管理等领域中的作用越来越明显,如何自动或半自动构建领域本体成为一个紧迫的任务。领域概念是领域本体中最基础最重要的建模原语,本体中关系、实例、函数、公理都建立在概念的基础之上,它对领域本体的构建起着重要作用。如何高效地从大规模文本中自动获取领域概念对研究人员提出了巨大的挑战。本文针对领域概念抽取的难题,从领域术语抽取,领域概念内涵获取,领域概念外延(实例)学习三个方面开展了相关的研究和实验工作。1、领域术语抽取。本文首先利用规则从领域文本中获取可能成为术语的字符串,然后使用互信息考察字符串内部的结合紧密程度,以得到领域中在搭配上有意义的高频词,最后使用词语共现分析这些高频词中术语之间的相关性以获取领域术语。其创新点在于引入了词语共现分析领域术语之间的相关性,将实例等领域高频词过滤掉,从而实现了领域术语的自动抽取。2、领域概念内涵获取。本文利用知网(HOWNET)这部语义词典,借助义原对概念的内涵进行描述,从而实现概念内涵的自动获取;针对部分未登录词的问题,本文采取了拆分的策略实现其内涵自动获取。同时,针对术语重复的问题,本文使用K均值聚类技术实现了术语去重,术语之间的相似度计算则参考了其义原之间的距离。3、领域概念外延(实例)学习。针对当前实例学习中基于规则和统计方法存在的不足,本文将机器学习的方法引入到实例学习中,并尝试了基于支持向量机(SVM)的实例学习方法,实验结果证明了该方法的有效性。本文研究了当领域概念抽取的研究现状及其存在的问题,提出了概念抽取的基本思路,并按照领域术语抽取、领域概念内涵获取、领域概念外延(实例)学习的步骤对领域概念抽取开展了相关实验,实验结果验证了这些方法的有效性。
|
全文目录
摘要 3-4 ABSTRACT 4-9 第一章 绪论 9-15 1.1 课题的提出 9 1.2 本体(ONTOLOGY)简介 9-10 1.3 概念与术语 10-11 1.4 领域概念抽取研究现状 11-13 1.4.1 领域术语抽取 11-12 1.4.2 领域概念内涵获取 12 1.4.3 领域概念外延学习 12-13 1.5 本课题的研究内容 13 1.6 论文的组织 13-15 第二章 融合词语共现的领域术语抽取研究 15-28 2.1 引言 15 2.2 领域术语抽取研究现状 15-16 2.3 领域术语抽取整体框架 16-26 2.3.1 预处理 17 2.3.2 分词与词性标注 17 2.3.3 命名实体识别与处理 17-18 2.3.4 去除停用词和非名词 18 2.3.5 基于规则的候选术语发现 18 2.3.6 基于互信息的候选术语过滤 18-19 2.3.7 基于词语共现的术语抽取 19-26 2.3.7.1 词语共现 20-21 2.3.7.2 基于词语共现的领域术语抽取框架 21-22 2.3.7.3 索引文档的建立 22-23 2.3.7.4 种子术语的选取 23-24 2.3.7.5 新术语选择标准 24-25 2.3.7.6 K邻近新术语选择方法 25-26 2.4 本章小结 26-28 第三章 基于知网(HOWNET)的概念内涵获取与术语去重 28-36 3.1 引言 28 3.2 基于知网(HOWNET)的概念内涵获取 28-31 3.2.1 知网(HowNet)简介 29-30 3.2.2 已登录词的义原获取 30 3.2.3 未登录词的义原获取 30-31 3.3 基于K均值聚类的术语去重 31-35 3.3.1 K均值聚类 32-33 3.3.2 术语相似度计算 33-35 3.4 本章小结 35-36 第四章 基于支持向量机的概念外延(实例)学习 36-44 4.1 引言 36 4.2 概念实例学习研究 36-37 4.3 支持向量机(SUPPORT VECTOR MACHINE) 37-38 4.4 基于支持向量机的概念实例学习 38-43 4.4.1 整体框架 38-39 4.4.2 分类特征选取 39-40 4.4.3 特征值提取与模型训练 40-43 4.4.3.1 特征值提取 40-42 4.4.3.2 训练分类模型 42-43 4.4.4 概念实例获取 43 4.5 本章小结 43-44 第五章 实验结果及其分析 44-60 5.1 引言 44 5.2 领域术语抽取实验 44-49 5.2.1 基于互信息的术语过滤 45-46 5.2.2 基于词语共现的术语抽取 46-47 5.2.3 实验结果对比分析 47-49 5.3 概念内涵获取及术语去重实验 49-55 5.3.1 基于知网的内涵获取 49-51 5.3.1.1 已登录词的内涵获取 49-50 5.3.1.2 未登录词的内涵获取 50-51 5.3.2 术语去重 51-55 5.3.2.1 相似度计算结果 52-53 5.3.2.2 基于K均值的术语聚类 53-55 5.4 概念外延(实例)学习实验 55-56 5.4.1 实验结果 55-56 5.5 网络测试平台 56-59 5.5.1 领域术语抽取测试平台 56-57 5.5.2 领域术语相似度计算测试平台 57-58 5.5.3 领域概念实例学习测试平台 58-59 5.6 本章小结 59-60 第六章 结束语 60-62 6.1 研究工作总结 60-61 6.2 进一步研究设想 61-62 致谢 62-63 参考文献 63-69 附录A 攻读硕士学位期间发表的论文 69 附录B 计算机软件著作权 69-70 附录C 攻读硕士期间参与项目 70
|
相似论文
- 实体关系自动抽取技术的比较研究,TP391.1
- 基于半监督学习的特定领域术语抽取算法的研究,TP181
- 文本分类中词共现关系的研究及其应用,TP391.1
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 舌体特征的提取及融合分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|