学位论文 > 优秀研究生学位论文题录展示
短文本相似度计算在用户交互式问答系统中的应用
作 者: 宋万鹏
导 师: 顾乃杰
学 校: 中国科学技术大学
专 业: 计算机系统结构
关键词: 用户交互式问答系统 短文本相似度 自动问答 问题分类 答案聚类
分类号: TP391.1
类 型: 博士论文
年 份: 2010年
下 载: 538次
引 用: 2次
阅 读: 论文下载
内容摘要
随着互联网的迅速发展和Web 2.0概念的提出,问答(Question Answering)系统逐渐成为一种新的信息检索技术。和传统的搜索引擎返回大量相关文档不同,问答系统直接返回给用户精确的答案,从而省去了用户从大量相关的文档中去寻找自己所需信息的时间。尽管如此,传统的自动问答系统仍然难以满足人们的需要,这是因为机器的理解能力有限,往往不能很好的理解人们提出的问题,因而难以产生令人满意的答案。正因为如此,用户交互式问答(User-interactive Question Answering,也叫社区问答)系统应运而生。和传统的自动问答系统不同,用户交互式问答系统给广大用户提供了一个基于互联网的平台,使得人们可以自由的在网上进行提问和回答,从而实现人与人之间的互相帮助。由于答案都是由人来提供,而人的理解能力远远强于机器,因而答案的质量相比自动问答就有了明显的提高。短文本相似度计算在用户交互式问答系统中具有举足轻重的作用,因为问题和答案都是短文本的形式,进行问题和答案的处理必然要涉及到对问题及答案语义的理解及相似度的判断。短文本相似度计算在用户交互式问答系统中的应用主要包括常见问题自动问答、问题自动分类以及答案聚类。本文围绕这几方面的应用进行了深入研究,研究内容和创新之处如下:首先,提出了一种基于语义空间计算问题相似度的方法来解决常见问题的自动问答。该方法通过系统累积的问题构造一个语义空间,将问题映射到该空间中计算问题相似度。通过语义空间,问题信息能够得到更好的表示,从而使得问题相似度的计算更加精确。此外,该方法还通过特征聚类去除了冗余信息,提高了计算效率。其次,提出了一种新的基于相似度计算的问题自动分类的方法。该方法从累积的问题集中抽取出一些重要的词(Term)作为特征来构造一个特征空间并将每个类别用特征空间中的一个向量来表示。对于每个用户问题,首先也将其映射到特征空间中,然后计算问题和各个类别的相似度,最终将具有较高相似度的几个类别推荐给用户。此外,该方法还利用语义模板对问题中和主题相关的词进行识别并增加其权重,从而更好的表示了问题信息。最后,提出了一种有效的对同一个问题的答案进行聚类的方法。该方法按照内容或语义将同一问题下的所有答案进行聚类。此外,还为每个类选出一个代表性的答案提供给用户,这样用户通过这些代表答案就能快速的把握所有答案主要的信息。该方法包含两个重要组成部分:答案相似度计算方法和聚类算法。对于答案相似度计算,提出了一种结合统计信息和语义信息的计算方法;对于聚类算法,提出了一种增长式的聚类算法来降低时间复杂度。
|
全文目录
摘要 5-7 ABSTRACT 7-14 第1章 绪论 14-32 1.1 论文研究背景和意义 14-16 1.2 问答系统综述 16-27 1.2.1 自动问答系统 17-20 1.2.2 用户交互式问答系统 20-23 1.2.3 BuyAns 23-27 1.3 短文本相似度计算在用户交互式问答系统中的重要性 27-29 1.4 本文研究内容及创新 29-30 1.5 本文组织结构 30-32 第2章 短文本相似度计算综述 32-42 2.1 问题背景描述及相关研究 32-33 2.2 自然语言处理技术 33-34 2.3 短文本相似度计算方法 34-39 2.3.1 基于语义词典的方法 34-36 2.3.2 基于大规模文本集进行统计的方法 36-38 2.3.3 基于描述特征的方法 38 2.3.4 借助互联网资源的方法 38-39 2.3.5 其他计算短文本相似度的方法 39 2.4 本章小结 39-42 第3章 基于相似问题匹配的自动问答 42-50 3.1 研究背景与相关工作 42-43 3.2 基于语义空间的问题相似度计算方法 43-47 3.2.1 基于熵的特征的权值计算 44 3.2.2 特征语义聚类 44-46 3.2.3 语义空间中问题相似度的计算 46-47 3.3 实验设计与结果 47-49 3.3.1 实验设置 47 3.3.2 实验结果 47-49 3.4 本章小结 49-50 第4章 基于相似度的问题自动分类 50-66 4.1 研究背景与相关工作 50-52 4.1.1 用户交互式问答系统中问题分类的定义和作用 51 4.1.2 相关工作回顾 51-52 4.2 一种新的基于相似度计算的问题自动分类方法 52-57 4.2.1 特征空间的构造 53-54 4.2.2 主题相关词的识别 54-56 4.2.3 语义映射 56-57 4.2.4 相似度计算 57 4.3 系统实现 57-58 4.4 实验设计与结果 58-63 4.4.1 实验数据 59 4.4.2 实验结果 59-63 4.5 基于用户反馈的问题分类改进 63-64 4.6 本章小节 64-66 第5章 答案聚类 66-80 5.1 研究背景与相关工作 66-67 5.2 答案相似度计算 67-70 5.2.1 统计相似度 68 5.2.2 语义相似度 68-69 5.2.3 总体相似度 69-70 5.3 聚类算法 70-72 5.3.1 相关工作 70-71 5.3.2 一种自下而上的聚类算法 71-72 5.4 系统实现 72-74 5.5 实验设置与结果 74-78 5.5.1 实验数据 74 5.5.2 评估标准 74-75 5.5.3 实验结果 75-78 5.6 本章小结 78-80 第6章 总结 80-84 6.1 本文工作总结 80-81 6.2 本文主要的贡献和创新之处 81-82 6.3 下一步的研究工作 82-84 参考文献 84-96 致谢 96-98 在读期间发表的学术论文与取得的研究成果 98 已发表论文 98 攻读学位期间参与的科研项目情况 98
|
相似论文
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于搜索引擎的自动问答系统,TP391.3
- 中文问答系统中问题分析关键技术的研究,TP391.1
- 基于中文带权关键词树的受限领域问答系统研究,TP391.1
- 句子相似度计算理论及应用研究,TP391.1
- 分支问题在t-等价群作用下的分类,O189.32
- 高中物理开放性问题的分类和编订,G633.7
- 问答系统中的短文本聚类研究与应用,TP391.1
- 自动问答系统语音接口的设计与实现,TP311.52
- HNC理论和随机模糊在问答系统中的应用研究,TP391.6
- 汉日问题分类研究,TP391.1
- 问题回答系统中的问题分类研究,TP18
- 面向开放域的中文问答系统问句处理相关技术研究,TP18
- 限定领域内基于web的智能问答系统,TP393.092
- 融合多元信息的句子相似度计算研究,TP391.1
- 中文问答系统的问句分类研究,TP391.1
- 城市流浪乞讨群体分类管理模式的探讨,D632
- 基于本体的金融问答系统选股模块的设计与实现,TP311.52
- 基于问答网络论坛知识体系的自动问答系统研究,TP391.6
- 汉语情感问题分析和比较类型情感问答方法的研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|