学位论文 > 优秀研究生学位论文题录展示

基于本体的语义全文检索系统的研究

作 者: 王磊
导 师: 王桐
学 校: 哈尔滨工程大学
专 业: 信号与信息处理
关键词: 全文检索 Lucene.Net 本体 概念语义相似度 主成分分析
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 43次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的迅速发展,如何从海量信息资源中准确快速地检索到有利用价值的信息,成为了信息检索领域的研究重点。虽然传统的全文检索技术可以快速地完成对海量信息的检索,但是由于其检索时主要依赖于关键词的匹配技术,仅能从字面上完成检索请求与索引的匹配,缺乏对检索请求的语义层面的理解与分析处理能力,其检索结果不是遗漏重要信息,就是包含大量不相关信息。本体对信息资源进行了有效的组织与描述,本体中概念词之间以关系相连,通过其概念与关系的组合可以完成本体的逻辑推理工作。将本体技术引入到全文检索系统中,利用本体的逻辑推理能力,来实现对检索请求的语义支持,可以很大程度上提高传统的全文检索系统的检索准确性和对无用信息的过滤能力。本文在基于本体的语义全文检索系统的研究中做了以下工作:(1)在深入研究本体及其概念语义相似度的基础上,分析总结了目前概念语义相似度计算中存在的问题。提出了一种基于主成分分析(PCA)的综合加权概念语义相似度计算方法,该方法不仅集成了传统的基于语义距离的算法与基于信息内容的算法,而且引入了深度、密度因子和语义重合度来进行综合的分析,并针对综合算法中权值难以确定的问题,引入主成分分析的思想改进权值分配方法。通过实验证明,基于主成分分析的综合加权概念语义相似度计算方法有效改善了概念语义相似度计算的准确性。(2)利用Jena软件包设计并实现了一个通用的对本体描述语言文件的解析应用模型。该模型不仅可以根据本体中的概念及概念间的关系来计算出概念间的语义相似度,而且还支持将概念对及其之间的语义相似度导入到关系型数据库的功能。(3)研究了全文检索的过程、框架和其中的核心技术,并重点分析了Lucene.Net全文检索工具包的体系结构。利用Lucene.Net全文检索工具包和本体相关技术,设计了一个基于本体的语义全文检索模型,并给出了各个模块的详细设计。其中重点针对原系统的查询模块与结果反馈模块中,因缺乏对语义的支持而产生的检索结果准确性不高的问题,引入了本体概念语义相似度来对其进行功能的扩展。(4)设计与实现了基于本体的语义全文检索系统,通过具体的查询实例,证明了该系统在查全率与查准率方面优于传统的全文检索系统。

全文目录


摘要  5-6
ABSTRACT  6-11
第1章 绪论  11-15
  1.1 课题研究的背景及意义  11
  1.2 国内外研究现状  11-13
  1.3 论文主要研究内容  13-14
  1.4 论文的结构安排  14-15
第2章 本体全文检索基础知识  15-26
  2.1 本体相关理论  15-18
    2.1.1 本体的定义  15
    2.1.2 本体的组成  15-16
    2.1.3 本体的分类  16
    2.1.4 本体的描述语言  16-17
    2.1.5 本体的构建  17-18
  2.2 全文检索  18-25
    2.2.1 全文检索基本流程  18-19
    2.2.2 全文检索框架  19-20
    2.2.3 全文检索中核心技术  20-22
    2.2.4 全文检索技术的发展  22-23
    2.2.5 全文检索工具包 Lucene.Net  23-25
  2.3 本章小结  25-26
第3章 本体的概念语义相似度计算  26-40
  3.1 本体的概念语义相似度的含义  26
  3.2 本体概念语义相似度计算分类  26-27
    3.2.1 基于语义距离的概念语义相似度计算  26-27
    3.2.2 基于信息内容的概念语义相似度计算  27
  3.3 本体概念语义相似度计算的影响因素  27-29
  3.4 本体的概念语义相似度研究状况  29-32
    3.4.1 基于语义距离的概念语义相似度算法  29-30
    3.4.2 基于信息内容的概念语义相似度算法  30-31
    3.4.3 综合的概念语义相似度算法  31-32
  3.5 本体的概念语义相似度计算中存在的问题  32
  3.6 基于主成分分析的综合加权概念语义相似度计算方法  32-39
    3.6.1 算法原理  32-33
    3.6.2 算法流程  33-35
    3.6.3 实验结果与分析  35-39
  3.7 本章小结  39-40
第4章 基于本体的语义全文检索模型研究  40-46
  4.1 基于本体的语义全文检索模型概述  40
  4.2 基于本体的语义全文检索模型  40-45
    4.2.1 本体管理模块  41-42
    4.2.2 信息采集模块  42
    4.2.3 基本 Lucene.Net 检索模块  42-43
    4.2.4 用户查询语义扩展及结果反馈模块  43-45
  4.3 本章小结  45-46
第5章 基于本体的语义全文检索系统的设计与实现  46-60
  5.1 开发平台及使用工具  46-48
    5.1.1 Protégé简介  46-47
    5.1.2 Jena 简介  47
    5.1.3 PanGu 简介  47-48
  5.2 本体管理模块的设计与实现  48-50
    5.2.1 本体的创建  48-49
    5.2.2 概念语义相似度的提取与存储  49-50
  5.3 信息采集模块的设计与实现  50-51
  5.4 基本 Lucene.Net 检索模块的设计与实现  51-53
  5.5 用户查询语义扩展及结果反馈模块的设计与实现  53-56
    5.5.1 用户查询语义扩展  53-54
    5.5.2 结果反馈  54-56
  5.6 基于本体的语义全文检索系统与传统全文检索系统的比较  56-59
  5.7 本章小结  59-60
结论  60-61
参考文献  61-66
攻读硕士学位期间发表的论文和取得的科研成果  66-67
致谢  67

相似论文

  1. 基于质谱的雷公藤甲素肝脏毒性代谢组学研究,R285
  2. 改进的主成分分析方法在学科建设中的应用,G642.4
  3. 哲学思想在指导中学数学教学中的作用,G633.6
  4. 不同人群本体感觉差异性比较及脑机制研究,B845
  5. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  6. 拉图尔的行动者网络理论研究,N02
  7. 重庆市汽车产业有效竞争研究,F426.471
  8. 俄语外来词的本土化及其深层解读,H35
  9. 川陕渝制造业竞争力比较研究,F224
  10. 低黄变亲水性有机硅柔软剂的开发与应用研究,TS195.23
  11. 基于GEVA-VC的企业业绩评价指标体系研究,F426.32
  12. 220kV输电线路除冰机器人机械本体研究,TP242
  13. 重庆文化产业竞争力研究,F224
  14. 声表面波气体传感器阵列模式识别技术的研究,TP212
  15. 黑河源区湿地动态变化分析及驱动力分析,P931.1
  16. 面向信用评估领域的WEB服务组合方法的研究,TP393.09
  17. 基于主成分分析法的我国沿海港口竞争力评价研究,F552
  18. 创业板IPO多因素定价模型,F224
  19. 基于OAI-PMH协议及全文检索技术的图书馆联合目录系统,TP391.3
  20. 关系数据库到RDF(S)映射方法的研究,TP311.13
  21. 基于神经树的人脸识别方法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com