学位论文 > 优秀研究生学位论文题录展示
基于中文维基百科的语义知识挖掘相关研究
作 者: 李赟
导 师: 钟义信
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 维基百科 语义知识 信息挖掘 语义词典 自然语言处理
分类号: TP391.1
类 型: 博士论文
年 份: 2009年
下 载: 894次
引 用: 9次
阅 读: 论文下载
内容摘要
为了实现基于自然语言的智能信息处理,计算机需要了解大量的语义知识。大规模语义词典和知识库通常依靠人工构建完成,在建设和维护过程中耗费了大量的人力物力。从语料资源中自动抽取语义信息,建设大规模的语义知识资源已成为一个热门的研究课题。维基百科是一个开放式的在线百科全书,对于自然语言处理它不止是一个大规模的语料库,还可以用作一个包含了大量人类知识和语义关系的知识库资源。本文从自然语言处理和语义知识资源建设两方面出发,研究了维基百科挖掘语义信息挖掘等方面的处理方法及相关应用。针对自然语言处理中的语义相关度计算,本文提出了基于维基百科链接关系(分类图和文档图)的“多路径搜索”算法。实验下载了中文维基百科页面并利用链接关系抽取出反映分类层次关系的分类图以及反映解释文档超级链接引用的文档图。进一步通过搜索多条相关路径,综合路径长度及节点或链接权重等完成语义相关度计算。实验利用超级链接引用关系抽取了大量的语义相关词对,并建立了一个人工标注的测试集,通过与经典算法的对比对实验结果进行了分析评估。文本语义相关度的计算也可以利用维基百科实现语义知识扩展。实验抽取了页面重定向、分类层次、文本链接等反映语义关联关系的链接结构,并利用矩阵运算综合了直接或间接的语义关联关系,建立了一个包含维基百科背景知识的语义转换矩阵。通过将文档词频向量与语义转换矩阵相乘,获得一个在新的语义空间上的扩展向量,利用传统的向量夹角余弦等方法计算文本的语义相关度。算法同样可以用于抽取大量的存在语义相关关系的词,作为语义相关度测试集。针对挖掘维基百科构建语义知识资源,本文从两个角度进行了探索。一方面结合维基百科分类图的层次关系及词汇短语结构,并利用解释页面文档的句法模式等信息,挖掘出反映语义关系类别的信息,并为不包含具体语义关系类型的分类图添加语义关系标记,建立一个本体型语义层次网络。另一方面,从维基百科词汇中筛选出反映独立语义概念的核心词,并为所有词条标注最能反映概念、属性特征的相关词解释,建立解释型语义词典。进一步探讨了将维基百科关联到中文语义词典知网(HowNet),并通过挖掘分类关系为其扩充新词、标注义原解释的可行性及其实现方式。
|
全文目录
摘要 4-6 ABSTRACT 6-8 目录 8-10 第一章 绪论 10-16 1.1.引言 10 1.2.研究背景 10-12 1.3.研究工作综述 12-15 1.4.论文结构 15-16 第二章 针对维基百科语义挖掘的调研和研究准备 16-36 2.1.维基百科在不同应用中的角色 16-20 2.2.维基百科在自然语言处理中的应用 20-25 2.2.1.词义消歧 20-21 2.2.2.命名实体识别 21-22 2.2.3.关键词语义扩展 22-23 2.2.4.文本分类和索引 23-24 2.2.5.问答系统 24-25 2.3.挖掘维基百科建设语义知识资源的相关研究 25-28 2.3.1.概念词典和语义网络 25-26 2.3.2.大规模本体型语义资源 26-27 2.3.3.语义化的维基百科 27-28 2.4.整理面向语义挖掘的中文维基百科语料资源 28-36 2.4.1.中文维基百科的内容结构 28-31 2.4.2.语料下载和结构化整理 31-33 2.4.3.维基百科链接结构图的抽取 33-36 第三章 基于维基百科的语义相关度计算 36-63 3.1.经典语义相关度计算方法与维基百科的结合 36-39 3.2.利用维基百科的链接图实现语义相关度计算 39-45 3.2.1.综合多条关联路径计算语义相关度 40-41 3.2.2.分类关系之间的多路径算法 41-43 3.2.3.基于文档图链接路径的算法 43-45 3.3.基于文档链接抽取语义相关词 45-51 3.3.1.语义相关词的抽取 45-49 3.3.2.相关词集合特征分析 49-51 3.4.语义相关度计算的实验评测和分析 51-56 3.4.1.测试集的选择及实验方法 52-53 3.4.2.实验结果分析评测 53-56 3.5.基于链接网络的语义扩展与文本分类 56-63 3.5.1.维基百科链接语义相似度的语义转换矩阵 57-60 3.5.2.矩阵运算的效率优化 60-61 3.5.3.算法分析与评测 61-63 第四章 维基百科构建和维护语义知识资源 63-90 4.1.区分语义关系构建分类图语义网络 63-77 4.1.1.基于分类图结构挖掘语义关系 64-70 4.1.2.基于解释文本挖掘语义关系 70-74 4.1.3.利用维基百科扩充知网词汇和义原解释 74-77 4.2.抽取语义相关词建立解释型语义词典 77-90 4.2.1.语义核心词的抽取 80-83 4.2.2.核心词之间语义解释的标注 83-85 4.2.3.维基百科相关词解释的标注 85-90 第五章 总结和展望 90-94 5.1.1.本文研究工作总结 90-91 5.1.2.维基百科相关应用展望 91-94 参考文献 94-102 攻读博士学位期间发表的论文 102-103 致谢 103
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 汉语框架自动识别中的歧义消解,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 分布式动态交通信息挖掘及导航,TP311.13
- 基于维基百科的命名实体消歧研究,TP391.1
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于话题的多文档文摘技术研究,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- AraOntoLT:基于阿拉伯语文本的本体学习框架,TP391.1
- 基于维基百科的语义比较,TP391.1
- 基于写作风格特征的论文剽窃检查优化方法研究,TP391.1
- 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
- 遥感图像林业信息挖掘及案例分析,S771.8
- 面向自然语言处理的汉语句子语义知识库构建研究,H13
- 筛选规则智能化生成的研究与设计,TP393.08
- 维基百科的网络结构及可信分析,TP393.02
- 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
- 面向网络知识服务的医疗信息分类方法,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|