学位论文 > 优秀研究生学位论文题录展示
基于中文维基百科的语义相关度计算的研究与实现
作 者: 汪祥
导 师: 贾焰
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 语义相关度 语义相似度 维基百科 自然语言处理
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 103次
引 用: 0次
阅 读: 论文下载
内容摘要
语义相关度计算是自然语言处理领域的重要研究方向,是信息检索、文本分类、词义消歧、基于实例的机器翻译等多种自然语言处理技术的重要基础。由于中文本身的特点和其他原因,中文语义相关度计算的研究要落后于英文。为了促进中文自然语言处理技术的发展,研究中文语义相关度计算技术具有重要的理论意义和现实意义。本文主要研究了基于维基百科分类体系和链接结构进行语义相关度计算的算法。首先,本文介绍了语义相关度计算的研究背景与相关研究方法,以对本领域有详尽的了解。其次,本文将基于WordNet等树状分类体系的语义相关度计算算法运用到了中文维基百科上,随后依据维基百科的分类体系是有向无环图而不是树的特点提出了基于分类体系的多路径语义相关度算法。再次,本文将WLM(Wikipedia Link-based Measure)算法应用到中文维基百科上,提出了结合维基百科分类体系和链接结构的WLT(Wikipedia Links and Taxonomy based measure)算法,随后本文将基于分类体系的算法与WLM算法和WLT算法结合起来,实验结果显示基于维基百科分类体系和链接结构进行语义相关度计算比单独基于其中一种的算法更好。最后,将本文提出的基于维基百科的语义相关度算法运用到了YHPODS系统中:一是话题关键词的定制,二是基于语义的分类。此外,本文为了测试语义相关度算法的准确度,构造了人工评测的测试集Words-240,并将其公开发布。由于维基百科数据量大,为了提高算法运行效率,本文采用了优化数据库库表、建立数据库连接池和设置内存、文件缓存等措施对算法进行优化,使得算法的运行效率提高了数十倍。
|
全文目录
摘要 8-9 ABSTRACT 9-10 第一章 绪论 10-15 1.1 研究背景及意义 10-11 1.2 研究现状 11-12 1.3 本文的主要工作 12-13 1.4 本文的组织结构 13-15 第二章 语义相关度计算相关研究方法 15-31 2.1 语义相关度评测方法介绍 15-18 2.1.1 语义相关度的概念 15-16 2.1.2 语义相关度测试集介绍 16-17 2.1.3 语义相关度算法的准确度评测方法 17-18 2.2 基于大规模语料库的语义相关度计算 18-19 2.3 基于语义词典的语义相关度计算 19-22 2.4 基于维基百科的语义相关度计算 22-29 2.4.1 维基百科介绍 22-25 2.4.2 基于维基百科的WikiRelate 算法 25-27 2.4.3 基于维基百科链接结构的WLM 算法 27-28 2.4.4 基于维基百科的ESA 算法 28-29 2.5 本章小结 29-31 第三章 基于中文维基百科分类体系的语义相关度计算 31-43 3.1 中文测试集的构建 31-32 3.2 维基百科分类体系的特点 32-33 3.3 基于分类体系的经典算法与中文维基百科的结合 33-36 3.4 基于分类体系的多路径语义相关度算法 36-39 3.5 实验分析 39-41 3.5.1 实验环境的构建 39-40 3.5.2 实验结果分析 40-41 3.6 本章小结 41-43 第四章 综合使用中文维基百科分类体系与链接结构的语义相关度计算 43-51 4.1 WLT 算法 43-45 4.2 基于维基百科分类体系的算法与WLM 和WLT 算法的融合 45-47 4.3 实验分析 47-50 4.4 本章小结 50-51 第五章 基于维基百科语义相关度计算的应用与实现 51-59 5.1 基于维基百科的语义相关度算法的设计与实现优化 51-54 5.2 语义相关度计算在YHPODS 系统中的应用 54-58 5.2.1 YHPODS 系统简介 54-56 5.2.2 话题关键词的定制 56 5.2.3 基于语义的分类 56-58 5.3 本章小结 58-59 第六章 结束语 59-61 致谢 61-62 参考文献 62-66 作者在学期间取得的学术成果 66-67 作者在学期间参加的科研工作 67
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 基于链接重要性的动态链接预测算法研究,TP393.03
- 基于本体的智能电网知识检索系统,TM76
- 基于维基百科的命名实体消歧研究,TP391.1
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 蛋白质关系网络复合物发现与可视化研究,TP391.41
- 基于话题的多文档文摘技术研究,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- AraOntoLT:基于阿拉伯语文本的本体学习框架,TP391.1
- 基于本体和SWRL推理的知识检索方法研究,TP391.3
- 基于维基百科的语义比较,TP391.1
- 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 面向自然语言处理的汉语句子语义知识库构建研究,H13
- 筛选规则智能化生成的研究与设计,TP393.08
- 基于概念集合的网页内容过滤方法的研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|