学位论文 > 优秀研究生学位论文题录展示

基于中文维基百科的语义相关度计算的研究与实现

作　者: 汪祥
导　师: 贾焰
学　校: 国防科学技术大学
专　业: 计算机科学与技术
关键词: 语义相关度语义相似度维基百科自然语言处理
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 103次
引　用: 0次
阅　读: 论文下载

内容摘要

语义相关度计算是自然语言处理领域的重要研究方向,是信息检索、文本分类、词义消歧、基于实例的机器翻译等多种自然语言处理技术的重要基础。由于中文本身的特点和其他原因,中文语义相关度计算的研究要落后于英文。为了促进中文自然语言处理技术的发展,研究中文语义相关度计算技术具有重要的理论意义和现实意义。本文主要研究了基于维基百科分类体系和链接结构进行语义相关度计算的算法。首先,本文介绍了语义相关度计算的研究背景与相关研究方法,以对本领域有详尽的了解。其次,本文将基于WordNet等树状分类体系的语义相关度计算算法运用到了中文维基百科上,随后依据维基百科的分类体系是有向无环图而不是树的特点提出了基于分类体系的多路径语义相关度算法。再次,本文将WLM(Wikipedia Link-based Measure)算法应用到中文维基百科上,提出了结合维基百科分类体系和链接结构的WLT(Wikipedia Links and Taxonomy based measure)算法,随后本文将基于分类体系的算法与WLM算法和WLT算法结合起来,实验结果显示基于维基百科分类体系和链接结构进行语义相关度计算比单独基于其中一种的算法更好。最后,将本文提出的基于维基百科的语义相关度算法运用到了YHPODS系统中:一是话题关键词的定制,二是基于语义的分类。此外,本文为了测试语义相关度算法的准确度,构造了人工评测的测试集Words-240,并将其公开发布。由于维基百科数据量大,为了提高算法运行效率,本文采用了优化数据库库表、建立数据库连接池和设置内存、文件缓存等措施对算法进行优化,使得算法的运行效率提高了数十倍。

全文目录

摘要  8-9
ABSTRACT  9-10
第一章绪论  10-15
  1.1 研究背景及意义  10-11
  1.2 研究现状  11-12
  1.3 本文的主要工作  12-13
  1.4 本文的组织结构  13-15
第二章语义相关度计算相关研究方法  15-31
  2.1 语义相关度评测方法介绍  15-18
    2.1.1 语义相关度的概念  15-16
    2.1.2 语义相关度测试集介绍  16-17
    2.1.3 语义相关度算法的准确度评测方法  17-18
  2.2 基于大规模语料库的语义相关度计算  18-19
  2.3 基于语义词典的语义相关度计算  19-22
  2.4 基于维基百科的语义相关度计算  22-29
    2.4.1 维基百科介绍  22-25
    2.4.2 基于维基百科的WikiRelate 算法  25-27
    2.4.3 基于维基百科链接结构的WLM 算法  27-28
    2.4.4 基于维基百科的ESA 算法  28-29
  2.5 本章小结  29-31
第三章基于中文维基百科分类体系的语义相关度计算  31-43
  3.1 中文测试集的构建  31-32
  3.2 维基百科分类体系的特点  32-33
  3.3 基于分类体系的经典算法与中文维基百科的结合  33-36
  3.4 基于分类体系的多路径语义相关度算法  36-39
  3.5 实验分析  39-41
    3.5.1 实验环境的构建  39-40
    3.5.2 实验结果分析  40-41
  3.6 本章小结  41-43
第四章综合使用中文维基百科分类体系与链接结构的语义相关度计算  43-51
  4.1 WLT 算法  43-45
  4.2 基于维基百科分类体系的算法与WLM 和WLT 算法的融合  45-47
  4.3 实验分析  47-50
  4.4 本章小结  50-51
第五章基于维基百科语义相关度计算的应用与实现  51-59
  5.1 基于维基百科的语义相关度算法的设计与实现优化  51-54
  5.2 语义相关度计算在YHPODS 系统中的应用  54-58
    5.2.1 YHPODS 系统简介  54-56
    5.2.2 话题关键词的定制  56
    5.2.3 基于语义的分类  56-58
  5.3 本章小结  58-59
第六章结束语  59-61
致谢  61-62
参考文献  62-66
作者在学期间取得的学术成果  66-67
作者在学期间参加的科研工作  67

基于中文维基百科的语义相关度计算的研究与实现

内容摘要

全文目录

相似论文