学位论文 > 优秀研究生学位论文题录展示
文本语义相似度计算方法研究
作 者: 刘宏哲
导 师: 须德
学 校: 北京交通大学
专 业: 计算机应用技术
关键词: 概念相似度 句子相似度 文档相似度 语义相似度计算
分类号: TP391.1
类 型: 博士论文
年 份: 2012年
下 载: 650次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机和互联网技术的发展,文本数据的数量大幅度地增长,但是这类数据对于计算机来说难于理解和使用,解决这一问题的途径之一是借助语义相似度计算。遗憾的是,现有的语义相似度计算研究成果在应用时大都需要较多的附加信息,例如大规模语料库以及完备本体等,这些附加信息在实际应用领域中通常难以获得,因此成果的应用范围受到了一定的限制;此外,迄今为止研究是在不同时期、不同前提下割裂地进行的,对概念、句子和文档等研究对象的语义相似度计算研究没有形成统一的理论体系。针对以上问题,论文在不完备附加信息前提下,从概念、句子和文档三个对象层面研究文本数据的语义相似度和相关度计算,计算过程包括语义提取、语义描述、语义相似度计算三个主要阶段。各研究对象与本体的语义关系将基于本体结构进行提取,用研究对象在本体中的语义“指纹”描述对象本身,构建基于本体结构的语义向量,从而进行语义相似度计算。研究成果主要包括以下三方面:1.提出了一种基于树结构和以树为主体的图结构的相似度和相关度计算方法。通过分析本体的树结构,可以发现概念节点的祖先概念节点和后代概念节点与当前概念节点语义相关,据此特点可以找出概念节点在本体树中的相关概念节点;根据概念节点在本体中所处位置的结构信息计算概念节点密度,实现基于树结构本体的概念语义提取,语义描述和语义相似度计算。在树结构本体相似度计算方法的基础上,进一步提出了基于以树为主体的图结构的概念相关度计算方法。针对特定语义相关度计算需要,将以树为主体的图结构本体转化为树结构本体,计算概念节点间的语义相关度。本方法在领域数据中得到很好的应用,在标准数据集WordNet上的实验也证明:与经典的计算方法相比,在不完备附加信息背景下,本方法获得很好的皮尔森线性相关系数值(Correlation)。2.提出了一种基于树结构本体的句子相似度计算方法。利用本体概念与句子中关键词之间建立的语义索引,构建句子与本体间的直接和间接语义联系,据此提取描述句子的语义向量,从而计算句子间的语义相似度。应用微软研究院的意译语料库(MSRP)对本方法进行验证,实验结果表明:与相关的计算方法相比,本方法在不完备附加信息应用前提下获得了较好的准确率和召回率。3.提出了一种基于树结构本体的文档相似度计算方法。除利用本体概念与文档中的关键词建立的语义索引来构建文档与本体间的直接和间接语义联系外,还利用本体的层次结构信息估算文档关键词的权重,据此构建基于本体的文档语义向量来计算文档间的语义相似度。用Michael D.LEE50标准文档相似度测试数据集进行验证,实验结果表明:与相关的方法比较,本方法在不完备附加信息应用前提下获得了较好的皮尔森线性相关系数值。简而概之,与已有的计算方法相比,论文提出的三种语义相似度计算方法在应用时,所需附加辅助信息少,计算过程简单高效,经过相关的数据集测试具有较好的计算精度,因此有良好的领域适应性。图39幅,表20个,参考文献120篇。
|
全文目录
致谢 5-6 摘要 6-8 ABSTRACT 8-13 1 绪论 13-21 1.1 课题的提出 13 1.2 国内外研究现状及存在问题分析 13-16 1.2.1 国内外研究现状 13-15 1.2.2 存在问题分析 15-16 1.3 论文的主要研究工作与创新点 16-18 1.3.1 研究工作 16-17 1.3.2 创新点 17-18 1.4 论文组织结构 18-21 2 概念相似度/相关度计算方法 21-71 2.1 相关基础 21-32 2.1.1 WordNet简介 21-31 2.1.2 语料库简介 31-32 2.2 概念相似度和相关度关系 32-33 2.3 相关工作 33-38 2.3.1 相关方法分类 33-37 2.3.2 相关方法分析 37-38 2.4 本体的树结构(HCT)和图结构(HCG) 38-42 2.4.1 HCT和HCG定义 38-39 2.4.2 WordNet中的HCT和HCG结构 39-40 2.4.3 HCT和HCG结构中影响语义相似度和相关度的因素 40-42 2.5 HCT和语义相似度 42-50 2.5.1 方法起源 42-44 2.5.2 概念相似度计算相关定义 44-46 2.5.3 概念节点密度和相关概念节点对相似度计算的影响 46-50 2.5.4 概念相似度计算 50 2.6 HCG和语义相关度 50-57 2.6.1 HCT结构和HCG结构的关系 50-52 2.6.2 在HCG中的整体/部分关系的分类 52-55 2.6.3 将HCG转换为HCT 55-57 2.6.4 HCG中基于相关概念节点的概念相关度 57 2.7 实验评估 57-68 2.7.1 实验1:利用信息学院本体来计算概念相关度 57-62 2.7.2 实验2:标准数据进行测试 62-68 2.8 小结 68-71 3 句子相似度计算方法 71-87 3.1 句子相似度计算简介 71 3.2 相关研究 71-73 3.2.1 相关方法分类 71-73 3.2.2 相关方法分析 73 3.3 基于本体的句子相似度计算方法 73-77 3.3.1 相关定义 73-74 3.3.2 方法的工作步骤 74-77 3.4 实验评估 77-85 3.4.1 基于领域本体计算句子相似度 77-79 3.4.2 标准数据集测试本章方法 79-85 3.5 小结 85-87 4 文档相似度计算 87-99 4.1 文档相似度计算简介 87 4.2 相关工作 87-89 4.2.1 相关方法分类 87-89 4.2.2 相关方法分析 89 4.3 基于本体的文档相似度计算方法 89-94 4.3.1 相关定义 89-90 4.3.2 概念节点权重关系 90-92 4.3.3 方法的工作步骤 92-94 4.4 实验评估 94-97 4.4.1 基于领域本体计算文档相似度 94 4.4.2 使用标准数据测试方法 94-97 4.5 小结 97-99 5 基于语义的领域搜索引擎 99-107 5.1 搜索引擎工作原理 99-101 5.2 基于语义相似度的索引技术 101-103 5.2.1 相关技术及问题分析 101 5.2.2 基于语义相似度计算的领域搜索索引技术 101-103 5.3 基于语义相似度的排序技术 103-106 5.3.1 相关技术与问题分析 103-104 5.3.2 基于语义相似度计算的领域搜索排序技术 104-106 5.4 小结 106-107 6 论文工作总结与展望 107-109 6.1 论文工作总结 107-108 6.2 下一步展望 108-109 参考文献 109-119 附录A 部分实验结果 119-139 作者简历 139 攻读博士学位期间发表的学术论文(第一作者) 139-143 学位论文数据集 143
|
相似论文
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 智能答疑系统中句子相似度计算的研究与应用,TP391.1
- 面向销售服务的自动问答系统的设计与实现,TP311.52
- 基于本体的教学资源语义检索研究,TP391.3
- 基于本体相似度的语义Web服务匹配算法研究,TP393.09
- 基于本体和SWRL推理的知识检索方法研究,TP391.3
- 基于JEE的科技项目管理系统设计与实现,TP311.52
- 中文文档内容相似度检测方法研究,TP391.1
- 优化本体的迁移学习方法研究,TP391.1
- 远程教育中智能答疑系统的研究与实现,TP391.6
- 网络中文事件自动检测技术研究,TP393.09
- 基于语义网的教学资源管理系统关键技术研究,TP311.52
- 基于语义网的教学资源本体的可视化研究,TP391.1
- 一种基于多属性本体的概念相似度计算方法的研究,TP391.1
- 基于本体的语义检索原型系统的设计与实现,TP391.3
- 基于本体的CGF模型库系统研究与实现,TP311.52
- 创新设计启发引擎的联想过程算法研究,TP391.1
- 基于概念格的语义匹配模型研究,TP391.1
- 基于本体的医保审计知识库构建研究,TP391.1
- 基于语义本体的信息检索方法的研究,TP391.3
- 基于概念相似度计算的本体映射算法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|