学位论文 > 优秀研究生学位论文题录展示
中文问答系统中问句理解和相似度计算的研究与实现
作 者: 李旭锋
导 师: 彭新一;王振宇
学 校: 华南理工大学
专 业: 计算机应用技术
关键词: 问答系统 知网 领域词典 句型分析 句子相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 167次
引 用: 0次
阅 读: 论文下载
内容摘要
在如今的互联网时代,信息成为人们最重要和宝贵的资源之一。但是现有的以关键字和关键词的简单逻辑组合为基础的信息检索模式在某种程度上距离人们对信息快速、准确获取的需求越来越遥远。于是问答系统逐渐受到重视和发展。这些年来,中文信息处理技术的进步也极大地推动了中文问答系统的研究。本文主要借助于自然语言理解技术,对领域专业关键词标注库的构建,中文问句的理解,问句相似度的计算方法等问答系统的关键技术进行了深入的研究和探讨,提出了基于语义依存树和改进编辑距离相结合的句子相似度计算方法,并在此基础上实现了电信产品信息领域的问答系统的原型。实验证明,本文采用的基于语义依存树和改进编辑距离相结合的句子相似度计算取得了比较理想的应用效果。本文主要的工作和成果如下:1.通过领域语料预处理、并利用互信息理论,选择内部结合强度较高的字串作为候选词汇,构造了候选词集,最后在进行领域术语识别等流程实现了领域术语抽取系统,并在知网的基础上构建了领域义原树以及领域专业关键词标注库。2.在问句理解的处理中,我们借助于“问句统一型”以及相应的问句句型库,建立了疑问词表、问句统一型表和可能的回答形式表,实现了从多种提问形式到问句统一型,从问句统一型到多种回答形式的映射。3.分析比较了目前存在的各种句子相似度计算方法,发现基于语义依存的句子相似度计算方法体现了句子内部的结构和词语之间的相互作用关系,而编辑距离能够以较小的开销实现同义词之间的替换,并且可以表达组成句子的每个词的深层语义信息。于是我们利用骨架依存树把两种计算方法结合起来形成一种方法,从而达到扬长避短的目的。这样,我们便综合考虑了词法、句法、语义等方面。实验表明,该方法就有较好的实验效果。4.综合以上研究成果,我们设计并实现了基于电信产品信息的中文自动问答系统的原型。
|
全文目录
摘要 5-6 Abstract 6-11 第一章 绪论 11-16 1.1 问答系统的定义及分类 11-12 1.1.1 问答系统的定义 11 1.1.2 分类 11-12 1.2 课题的研究意义和现状 12-14 1.2.1 问答系统的优点及研究意义 12 1.2.2 国内外研究情况 12-14 1.3 主要工作 14-15 1.4 结构安排 15-16 第二章 中文问答系统的概述 16-25 2.1 问答系统的体系结构 16-17 2.1.1 问题理解 16 2.1.2 信息检索 16-17 2.1.3 答案抽取 17 2.1.4 本文的问答系统结构 17 2.2 中文分词 17-18 2.2.1 意义 17 2.2.2 汉语词法分析系统ICTCLAS 17-18 2.3 语义词典资源 18-21 2.3.1 中文语义词典 18 2.3.2 知网的义原及概念 18-21 2.3.3 知网的角色框架 21 2.4 同义词词典 21-24 2.4.1 简介 21 2.4.2 同义词词林的分类及举例 21-24 2.5 本章小结 24-25 第三章 领域术语抽取及专业词典的构造 25-39 3.1 领域术语 25-34 3.1.1 领域术语的概念 25 3.1.2 领域术语识别的常用方法 25-29 3.1.2.1 基于语言学的领域术语识别方法 26-27 3.1.2.2 基于统计的领域术语识别方法 27-28 3.1.2.3 基于语言学和基于统计方法之间的比较 28-29 3.1.3 术语自动抽取系统 29-34 3.1.3.1 领域术语抽取的任务 29-31 3.1.3.2 领域术语抽取系统 31-34 3.2 领域专业词典 34-38 3.2.1 构建专业词典的原因 34 3.2.2 领域专业关键词标注库的构造 34-38 3.3 本章小结 38-39 第四章 中文问句理解 39-56 4.1 引言 39 4.2 问句理解的基本流程 39-40 4.3 问题分类 40-45 4.3.1 问题分类的研究现状 40-41 4.3.2 本系统的问题分类方法 41-45 4.4 问题的扩展 45-46 4.4.1 关键词提取 45 4.4.2 关键词扩展 45-46 4.5 问句的句型分析 46-51 4.5.1 汉语问句句型分析的研究意义 47 4.5.2 汉语问句句型的分析方法 47-51 4.6 浅层语义分析 51-55 4.6.1 句子语义分析 51 4.6.2 语义角色标注 51-53 4.6.3 语义角色标注集 53-54 4.6.4 语义角色的标注过程 54-55 4.7 本章小结 55-56 第五章 词语及句子相似度计算 56-71 5.1 词语相似度 56-63 5.1.1 定义与特点 56 5.1.2 常用的计算方法 56-60 5.1.2.1 基于单汉字的字面相似度计算 56-58 5.1.2.2 基于词素的词语相似度计算 58 5.1.2.3 根据世界知识的计算方法 58-59 5.1.2.4 基于统计的词语相似度计算 59-60 5.1.3 基于知网的词语相似度计算 60-63 5.1.3.1 词语相似度计算方法 60-61 5.1.3.2 义原相似度计算 61 5.1.3.3 虚词概念的相似度计算 61 5.1.3.4 实词概念的相似度计算 61-63 5.2 句子相似度 63-70 5.2.1 句子相似度的定义 63 5.2.2 常见的计算方法 63-69 5.2.2.1 基于向量空间模型的TF-IDF 方法 64-65 5.2.2.2 基于编辑距离的方法 65-67 5.2.2.3 基于词形和词序的方法 67-68 5.2.2.4 基于语义依存的句子相似度计算 68-69 5.2.3 基于语义依存树和改进编辑距离的句子相似度计算方法 69-70 5.3 本章小结 70-71 第六章 电信产品信息领域问答系统原型的设计与实现 71-83 6.1 电信产品信息领域问答系统的原型 71-77 6.1.1 系统设计原则 71 6.1.2 系统原型实现 71-77 6.1.2.1 系统总体结构 71-72 6.1.2.2 系统及其各模块的设计 72-77 6.2 实验及结果 77-82 6.2.1 软硬件环境 77-78 6.2.2 系统性能指标 78-79 6.2.3 实验结果和分析 79-82 6.3 本章小结 82-83 总结与展望 83-85 参考文献 85-92 致谢 92
|
相似论文
- WordNet和《中国分类主题词表》的映射研究,G254
- 智能答疑系统中句子相似度计算的研究与应用,TP391.1
- 针对教育视频的虚拟学习社区设计与实现,G434
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于概念集合的网页内容过滤方法的研究,TP393.092
- Web多文档自动文摘研究,TP391.1
- 基于知网的受限域问答系统原型的设计与实现,TP391.1
- 领域知识对领域问答系统答案抽取影响研究,TP391.3
- 基于增量改进贝叶斯领域问句分类研究,TP391.3
- 问答对自动获取的研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- E-Learning系统中基于课程本体的用户兴趣模型挖掘,TP311.13
- 基于语义的单文档自动摘要研究,TP391.1
- 改进的语句相似度算法在问答系统中的应用研究,TP391.1
- 基于贝叶斯分类方法的中文问句分类研究,TP391.1
- 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
- 汉语语义依存分析研究,TP391.1
- 基于意义理解的问答系统设计与实现,TP311.52
- 交互式问答系统中的省略恢复研究,TP391.1
- 中文问答系统中问题分析关键技术的研究,TP391.1
- 事实型中文问答系统中片段检索方法的研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|