学位论文 > 优秀研究生学位论文题录展示
基于汉语概念图的词汇语义相似度计算
作 者: 何夏燕
导 师: 陆汝占
学 校: 上海交通大学
专 业: 计算机软件与理论
关键词: 相似度 内涵 概念图 语义信息
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 103次
引 用: 0次
阅 读: 论文下载
内容摘要
词汇语义相似度计算作为中文信息处理中的一个关键问题,国内外众多学者已对其开展了广泛而深入的研究,它是信息检索、信息抽取、文本分类、词义排歧和机器翻译等重点研究领域的基础之一。现今对词汇语义相似度的计算方法主要分为两种,分别是基于规则和基于统计的方法。但是这些方法主要依据词与词之间在语义词典中的距离或是在统计语料中的相关性,都未能从汉语的内涵出发。本文提出一种新的相似度计算方法,该方法从概念层面上来解读两个词语之间的相似性,并在此基础上给出一个量化的相似度值。该方法首先将词语的释义项转化为内涵概念图的形式,然后计算两个内涵概念图之间的相似程度,从而求得词语语义相似度的值。本文的主要贡献如下:第一,根据概念图的理论,提出了构造词语内涵概念图的方法。内涵概念图的构造过程分为如下几个步骤:释义项获取、概念分析、知识提取和概念图的构建标引。第二,根据词语的内涵释义项提出了一种基于义原集的词汇语义相似度计算方法。该方法是后续计算概念图之间相似度的基础,用作概念图中节点之间的相似度计算。第三,在概念节点间相似度可求的前提下,我们提出了计算概念图全局相似度的方法。首先对所选领域的词进行概念图标引,然后抽取一定数量的能够完备表述该领域词语内涵的属性名作为概念图展开的框架,最后调用本文所提出的递归算法对两个词语的概念图进行全局相似度计算。最后,为了验证本文相似度计算方法的有效性,本文把语义相识度计算运用到网页聚类领域。通过对聚类结果的分析,我们发现该方法的效果是显著的。本文的研究给词汇语义相似度的计算提出了一种新的尝试和方法,从内涵概念图层次上分析词汇相似度,为今后开发新一代中文搜索引擎提供了有效的技术支持,是语言工程的重要组成部分。
|
全文目录
摘要 5-7 ABSTRACT 7-11 第一章 绪论 11-16 1.1 研究背景 11-12 1.2 研究目标 12-13 1.3 本文的工作与创新点 13-14 1.4 本文的结构 14-15 1.5 本章小结 15-16 第二章 相关理论与关键技术 16-26 2.1 概念图 16-19 2.2 相似度计算 19-24 2.2.1 基于规则的方法 19-23 2.2.2 基于统计的方法 23-24 2.2.3 命名实体的相似度计算 24 2.3 本章小结 24-26 第三章 语义相似度计算 26-44 3.1 内涵概念图 26-29 3.2 概念图的标引 29-36 3.2.1 释义项获取 30 3.2.2 概念分析 30-31 3.2.3 知识提取及概念图的构建 31-33 3.2.4 标引结果分析 33-35 3.2.5 概念图标引的难点分析 35-36 3.3 基于义原集的相似度计算 36-41 3.3.1 义原简介 36-38 3.3.2 基本思想 38-40 3.3.3 具体实现 40-41 3.4 概念图相似度计算 41-43 3.4.1 思想方法 41-42 3.4.2 具体实现 42-43 3.5 本章小结 43-44 第四章 实验结果分析 44-52 4.1 预定义属性名集合 44-45 4.2 基于义原集的相似度M ss 算法实验 45-48 4.2.1 数据集 45-46 4.2.2 实验结果分析 46-48 4.3 内涵概念图相似度计算实验 48-51 4.3.1 数据集 48-50 4.3.2 实验结果分析 50-51 4.4 本章小结 51-52 第五章 相似度算法评估实验 52-61 5.1 网页聚类概述 52-53 5.2 网页聚类数据采集及预处理 53-55 5.2.1 数据采集 53 5.2.2 数据预处理 53-55 5.3 网页聚类方法 55-58 5.3.1 传统文本相似度计算 56 5.3.2 基于语义相似度的文本相似度计算 56-57 5.3.3 模糊聚类 57-58 5.4 网页聚类实验 58-60 5.4.1 聚类评价指标 58-59 5.4.2 实验结果分析 59-60 5.5 本章小结 60-61 第六章 总结与展望 61-63 6.1 主要结论 61 6.2 研究展望 61-63 参考文献 63-66 致谢 66-67 攻读硕士学位期间已发表或录用的论文 67
|
相似论文
- 基于句法特征的代词消解方法研究,TP391.1
- 多邮件自动文摘的关键技术研究,TP391.1
- 高中生物学课堂教学中概念图的应用研究,G633.91
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 云烟高端品牌个性化文化内涵研究,F273.2
- 马克思主义中国化时代化大众化研究,D61
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 汉代“七”体研究,I206.2
- 略论罗马公民权问题,K126
- 概念图教学在高中生物教学中的有效性研究,G633.91
- 发展型社会保障制度:建构我国社会保障制度的目标选择,D922.182.3
- 高中生物教学中运用概念图策略的初步研究,G633.91
- 概念图在高中生物教学中的应用研究,G633.91
- 教学实效性中的教学素养研究,G633.3
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 刑法中的“非法占有为目的”若干问题探究,D924.3
- 服务属性对连锁服务行业品牌内涵的影响研究,F721
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 金基德电影暴力美学研究,J905
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|