学位论文 > 优秀研究生学位论文题录展示
基于维基百科的概念图建模及其应用研究
作 者: 万亿
导 师: 何婷婷
学 校: 华中师范大学
专 业: 计算机应用技术
关键词: 知识表示 维基百科 概念图 Personalized PageRank 语义相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 2次
引 用: 0次
阅 读: 论文下载
内容摘要
文本的表征与文本间的语义相似度计算是自然语言处理领域里十分重要的基础性研究课题,它们直接影响着诸如文本自动分类、信息检索、机器翻译、问答系统等多个应用系统的效果。传统的机器学习方法仅仅使用了文本本身所提供的信息来建模和运算,面对复杂多变的网络用语和短文本,仅仅依靠文本自身所提供的信息来理解文本语义信息变得越来越困难。这是因为传统的机器学习方法大多数是基于词袋(Bag of words)模型,即依靠词或短语之间的匹配,面对词汇的多样性、多义性,它就显得无能无力了。此外,随着互联网的发展,人类的语言生活也发生了很大变化,短文本占据了网络用语的大量比例,而这些短文本所能提供的词汇特征信息又非常之少,不利于传统的模型表征。借助于文本以外的知识扩展文本的信息,是解决以上问题的一个主要途径,然而,现有的模型并没有能充分利用外部知识所提供给我们的语义信息。以维基百科为例,大部分模型忽略了不同词条之间的语义联系和用户提供的标注信息,然而,有些时候,这些信息对于理解文本的语义、获取信息的增益非常重要。因此,设计一个更为合理的知识表示模型来更加充分的利用这些信息,可以说是自然语言处理领域一个亟待解决的研究课题。本文从以上问题出发,提出了一个新的知识表示模型,该模型弥补了同类模型的不足之处,既考虑进了知识之间的相互联系,也使用了用户标注的额外信息。概括起来,本文所做的工作主要有以下几点:第一,本文提出了一个新的知识表示模型,在该模型中,每个知识不再被当作语义独立的个体看待,不同的知识根据它们之间的语义相似度被联系到了一起,从宏观角度看,所有知识通过这些连接关系,构成了一张图的形状。以维基百科为例,维基百科中的每一个条目被视为一个概念,它们被当作概念图中的节点。概念之间的语义联系构成了它们之间的边。边的权值表示概念之间的语义相似程度,它的值是根据维基百科概念的正文内容、标题、锚文本、超链接、类别标签等多个信息综合衡量得出的,本文称此结构为概念图。这里需要特别指出,虽然本文使用了维基百科作为外部知识库来建模,但本文所提的模型不仅限于它,该模型同样适用于其它符合条件的外部知识库。第二,本文提出了一种基于概念的文本表征方式。本文在构建的概念图模型上设计了一套文本映射到概念的方法,成功把文本从词频向量空间转换到概念空间,增大了文本特征的粒度,从而解决了同义词等语言现象给传统文本表征方式带来的困扰。此外,本文还提出了利用新的文本表征模型来计算文本的语义相似度的方法。我们首先通过简单的词义相似度比较,将文本映射到一组概念节点上。然后根据节点之间的语义联系,对映射到图中的节点做调整,找出最能代表文本语义的一组节点。最后,通过比较概念向量之间的语义相似度来计算文本之间的语义相似度。第三,为了方便地将本文所提出的概念图模型运用到实际应用中。本文提出了一种针对语料特征的灵活建模方法。首先,对需要处理的语料进行随机采样。然后,采用多种特征抽取的方法抽取出实验语料的特征,并根据这些抽取出的特征,有针对性地选取与实验语料语义接近的一部分概念来构造图模型,从而成功地将概念图的规模控制在合理的大小,提高了计算效率,方便了该模型的使用。我们将所提出的基于概念图的文本表征方法以及文本相似度计算方法应用到了文本分类中,实验采用了国际标准语料集20newsgroup,并和同类型方法做了比较,实验验证了本文提出方法的有效性。
|
全文目录
摘要 5-7 Abstract 7-12 第一章 导论 12-17 1.1 研究背景与研究意义 12-14 1.2 论文的主要研究内容 14-15 1.3 论文的组织结构 15-17 第二章 相关理论与工作介绍 17-23 2.1 传统的文本表征与相似度计算方法 17 2.2 基于外部知识的文本表征方法 17-18 2.3 对几种知识库的简介与分析 18-19 2.3.1 高度结构化的知识库 18 2.3.2 半结构化的知识库 18-19 2.3.3 其它类型的知识库 19 2.4 知识几种组织建模方式 19-23 2.4.1 数据库类型的建模方式 20 2.4.2 向量建模方式 20-22 2.4.3 树型结构的建模方式 22 2.4.4 图型结构的建模方式 22-23 第三章 概念图模型 23-33 3.1 外部知识的选取 23-24 3.2 维基百科页面简介 24-27 3.2.1 维基百科中最基本的页面——概念 24-26 3.2.2 维基百科的其他页面 26-27 3.3 概念图的构建过程 27-32 3.3.1 信息的抽取与预处理 27-29 3.3.2 不同区域的信息的融合 29-30 3.3.3 概念图的表示 30-32 3.4 小结 32-33 第四章 基于概念图的文本表征与语义相似度比较 33-40 4.1 文本映射到概念的方法 33-36 4.1.1 初步映射阶段 33-34 4.1.2 网络链接分析简介 34 4.1.3 映射后的调整 34-36 4.2 在概念图中比较文本的语义相似度 36-39 4.2.1 基于向量的方法 36-38 4.2.2 基于编辑距离的方法 38-39 4.2.3 基于访问概率的方法 39 4.3 小结 39-40 第五章 基于概念图的文本分类 40-47 5.1 文本分类简介 40 5.2 实验语料的预处理 40-41 5.3 基于实验语料的灵活建模方式 41-44 5.4 实验结果分析与评估 44-47 第六章 总结与展望 47-49 6.1 本文总结 47 6.2 下一步研究工作 47-49 参考文献 49-53 硕士期间发表的论文和参与的项目 53-54 致谢 54
|
相似论文
- 基因调控网络模型描述语言研究,Q78
- 高中生物学课堂教学中概念图的应用研究,G633.91
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于Web的未登录词翻译技术研究,TP391.2
- 概念图教学在高中生物教学中的有效性研究,G633.91
- 高中生物教学中运用概念图策略的初步研究,G633.91
- 概念图在高中生物教学中的应用研究,G633.91
- 概念图在高中生物教学中的应用研究,G633.91
- 中学生物教学中“问题串—概念图”策略的研究,G633.91
- 基于本体的模具企业知识集成系统研究,TG76
- 著作权法视域中的“维基百科”,D923.41
- 基于自然决策理论的隐性知识表示研究,C934
- 基于本体的智能电网知识检索系统,TM76
- 基于维基百科的命名实体消歧研究,TP391.1
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 蛋白质关系网络复合物发现与可视化研究,TP391.41
- 基于本体的产品设计知识表示研究与实现,TB472
- 基于维基百科的社会网络分析技术研究,TP393.0
- 基于本体和SWRL推理的知识检索方法研究,TP391.3
- 基于维基百科的语义比较,TP391.1
- 基于本体的服装领域知识表示的建模研究,TS941.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|