学位论文 > 优秀研究生学位论文题录展示

语义相似度计算及其应用研究

作　者: 宋玲
导　师: 马军
学　校: 山东大学
专　业: 计算机应用技术
关键词: 概念相似度句子相似度文本文档相似度 XML文档相似度 Web服务匹配 Deep Web数据库聚类 XML文档聚类
分类号: TP391.1
类　型: 博士论文
年　份: 2009年
下　载: 1426次
引　用: 15次
阅　读: 论文下载

内容摘要

相似性是存在于任意两个对象之间的一种普遍关系,而相似度是对相似性的定量表示。相似度计算是信息检索、数据挖掘、知识管理、人工智能等领域的基本问题。随着本体的广泛应用,基于本体语义的相似度计算及应用成为心理学和计算机科学交叉研究的一个重要课题。本文根据信息粒度的大小将研究对象分为基本信息对象和一般信息对象。概念属于基本信息对象,文本文档、半结构文档、Web服务属于一般信息对象。首先提出一个概念之间的语义相似度计算方法并进行了实验验证。在此基础上,针对文本文档之间、半结构XML文档之间以及Web服务之间的语义相似度分别给出了新的计算方法并通过实验进行了验证。本文的研究丰富和完善了语义相似度理论,为对象之间语义相似度计算提供了一种新的思路。本文主要创新点如下:1.提出一个新的本体中概念之间的语义相似度(SSBC,SemanticSimilarity Between Concepts)计算方法充分考虑到本体赋予概念的结构信息和语义信息,得到概念的语义扩展集,通过语义扩展集来描述该概念的特征并定义模糊集合。然后通过计算两模糊集合之间的相似度来衡量两概念之间的语义相似度。SSBC可有效体现概念相似度的非对称性、本体中概念层次树的深度和区域密度对相似度的影响。本文对提出的计算方法进行了实验验证,实验包括两部分。首先基于WordNet实现了SSBC方法,在通用实验数据集上的实验结果表明:SSBC方法对于概念对之间的相似度的衡量优于目前广泛使用的一些相似度计算方法,可以将相关系数提高0.018。其次基于SSBC提出计算句子语义相似度(SSBS,Semantic Similarity Between Sentences)计算方法并进行相关的实验,与其他方法相比,SSBS算法在特征的量化过程中不仅考虑两个句子的概念对之间的语义相似度和字符串编辑距离,还考虑了不同词性的概念对句子相似度的影响。2.提出一个新的文本文档之间的语义相似度(SSBTD,SemanticSimilarity Between Text Documents)计算方法SSBTD首先基于领域本体将文档描述为概念特征集合,然后针对概念特征集合中的每个概念定义模糊集合,利用模糊操作形成文档的模糊集合,最后通过计算文档模糊集合之间的相似度来衡量文档之间的语义相似度。SSBTD有效地解决了文档特征描述中特征词之间语义独立的问题。SSBTD适用于特征词数量较少的文档,例如在Deep Web数据库查询表单的相似度计算中,Deep Web的查询表单接口是面向不同的用户独立设计实现的,其中的标记词数量比较少,当把语义相同的词作为不同的词来处理时,会严重地影响Deep Web数据库特征描述的准确性。采用SSBTD算法计算Deep Web查询表单之间的相似度,可以有效的衡量查询表单之间的语义相似度。实验结果表明,因为考虑了语义对相似度的影响,与传统的余弦相似度相比,SSBTD方法的聚类性能评价标准ASDC(Average Similarity of Document to the ClusterCentroid)和RI(Rand Index)均优于余弦相似度。3.提出一个新的XML文档之间的语义和结构相似度(XMLSim)计算方法计算路径之间相似度NpathSim是计算XMLSim的基础。NpathSim方法基于节点标记对之间的语义相似度和编辑距离来生成两条路径的节点标记的相似度矩阵,对每个节点标记,依据其在路径中的位置赋予相应的权值;分析了路径上节点标记的偏序关系,将路径之间相似度问题抽象为最大相似子序列(MSS,Maximal Similar Subsequence)问题,并利用动态规划对MSS问题求解得到路径相似度NpathSim。最终,XML文档之间的相似度XMLSim通过路径集合之间的最大NPathSim的平均值得到。利用XMLSim方法和没有考虑语义的XSim方法分别进行XML文档聚类实验,实验结果显示因为综合考虑了语义和结构对XML文档相似度的影响,从而使得XMLSim聚类性能评价标准纯度和RI均优于XSim方法。4.提出Web服务的语义索引方法和服务匹配算法首先基于领域本体对Web服务的描述IOPE(Input、Output、Precondition、Effect)进行语义扩展,将语义上完全等价的同义词添加到IOPE,建立其BBS(Bit-Slice Bloom Filtered Signature)语义索引结构:然后提出两种服务匹配方法:支持关键词匹配和支持输入/输出参数匹配。最后提出一种Web服务之间的语义匹配度计算方法。通过实验验证了BBS索引的有效性:随着服务个数的增加,相对于倒排文档,BBS索引在Web服务发现的平均时间和CPU利用方面均优于倒排索引。

全文目录

摘要  11-14
ABSTRACT  14-17
第1章绪论  17-26
  1.1 研究背景  17-18
  1.2 研究现状  18-23
    1.2.1 相似度模型  18-20
    1.2.2 相似度计算步骤  20-23
  1.3 研究意义  23
  1.4 本文的主要内容与组织结构  23-26
第2章概念之间的语义相似度计算  26-69
  2.1 问题描述  26-27
  2.2 相关工作  27-33
    2.2.1 基于编辑距离的方法  27
    2.2.2 基于语料库的方法  27-28
    2.2.3 基于词典的方法  28
    2.2.4 基于语义网络或本体的方法  28-33
  2.3 目前研究中存在的问题  33-35
  2.4 本体中概念之间语义相似度(SSBC)的计算  35-45
    2.4.1 SSBC算法  35-36
    2.4.2 语义关系权值的计算  36-41
    2.4.3 概念的模糊特征集合  41-43
    2.4.4 模糊相似度的计算方法  43-45
  2.5 概念之间的语义相似度实验  45-67
    2.5.1 实验数据集  46-47
    2.5.2 实验分析  47-67
  2.6 本章小结  67-69
第3章文本文档之间的语义相似度计算及其应用  69-88
  3.1 问题描述  69
  3.2 相关工作  69-70
  3.3 目前研究中存在的问题  70
  3.4 文本文档之间语义相似度(SSBTD)的计算  70-72
  3.5 SSBTD在Deep Web数据库语义聚类中的应用  72-86
    3.5.1 Deep Web数据库聚类问题描述  74
    3.5.2 Deep Web表单特征提取  74-77
    3.5.3 领域本体的构建  77-79
    3.5.4 Deep Web数据库表单相似度  79
    3.5.5 混合粒子群聚类算法  79-83
    3.5.6 Deep Web数据库语义聚类实验  83-86
  3.6 本章小结  86-88
第4章 XML文档之间的语义和结构相似度计算及其应用  88-106
  4.1 问题描述  88-89
  4.2 相关工作  89
  4.3 目前研究中存在的问题  89-90
  4.4 基于语义和结构的XML文档相似度计算  90-99
    4.4.1 节点之间的相似度计算-ESim  91-94
    4.4.2 路径之间的相似度计算-NPathSim  94-97
    4.4.3 XML文档之间的相似度计算-XMLSim  97-99
  4.5 XMLSim在XML文档聚类中的应用  99-104
    4.5.1 最小生成树聚类算法  99
    4.5.2 XML文档聚类实验  99-104
  4.6 本章小结  104-106
第5章 Web服务的语义匹配及其应用  106-118
  5.1 问题描述  106-107
  5.2 相关工作  107-108
  5.3 目前研究中存在的问题  108
  5.4 Web服务索引  108-113
    5.4.1 布隆过滤器  108-109
    5.4.2 BBS(Bit-Sliced Bloom-Filtered Signature)  109
    5.4.3 Web服务的BBS索引结构  109-113
    5.4.4 Web服务的BBS语义索引结构  113
  5.5 Web服务匹配  113-116
    5.5.1 基于关键词的Web服务匹配  113-114
    5.5.2 基于服务功能的Web服务匹配  114-115
    5.5.3 Web服务之间的语义匹配度计算  115-116
  5.6 Web服务发现实验  116-117
  5.7 本章小结  117-118
第6章结论及展望  118-122
  6.1 主要工作总结  118-120
  6.2 未来工作展望  120-122
参考文献  122-132
致谢  132-133
攻读学位期间发表的学术论文目录  133-137
攻读学位期间参与科研项目情况  137-139
学位论文评阅及答辫情况表  139-141
外文论文  141-162

相似论文

智能答疑系统中句子相似度计算的研究与应用,TP391.1
基于PLSA语义聚类的web服务发现方法,TP393.09
基于本体相似度的语义Web服务匹配算法研究,TP393.09
基于语义的Web服务匹配研究,TP393.09
Web多文档自动文摘研究,TP391.1
优化本体的迁移学习方法研究,TP391.1
网络中文事件自动检测技术研究,TP393.09
BPEL流程设计工具与Web服务匹配技术研究,TP393.09
基于语义网的教学资源管理系统关键技术研究,TP311.52
基于语义网的教学资源本体的可视化研究,TP391.1
基于语义网络的自动文摘研究,TP391.1
基于语义网的本体相似度算法研究,TP391.1
面向辅助写作的英汉例句检索系统的设计与实现,TP391.3
基于本体的语义检索原型系统的设计与实现,TP391.3
基于本体的CGF模型库系统研究与实现,TP311.52
基于概念的语义Web服务匹配算法的研究及其在配送中心系统的应用,TP393.09
基于框架核心语义依存图的句子相似度计算研究,TP391.1
中文问答系统中问句理解和相似度计算的研究与实现,TP391.1
基于句子相似度的文本比对算法研究,TP391.1
支持QoS的语义Web服务匹配方法研究,TP393.09
基于概念格的语义匹配模型研究,TP391.1