学位论文 > 优秀研究生学位论文题录展示
面向问答的社区型知识抽取技术研究
作 者: 刘璟
导 师: 张宇
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 问答 维基百科 序列模式挖掘 论坛 问答对挖掘
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 102次
引 用: 0次
阅 读: 论文下载
内容摘要
近五年,数据驱动的方法逐渐成为了自动问答领域中新的研究热点。尤其是随着Web上各种网络社区的兴起,用户生成式内容在形式和数量上呈现出爆炸性增长,为人们积累了大量的社区型知识。种类丰富、海量的社区型知识为自动问答系统提供了前所未有的知识源,因此面向问答的社区型知识抽取技术研究对提高问答系统的性能以及为问答系统带来更好的用户体验有着积极的作用。本文重点研究了两类面向问答的社区型知识抽取技术:基于维基百科的定义型问答和论坛中问答对的自动挖掘。维基百科是一部在线百科全书,拥有大量的定义,其数据类型为我们提供了已标注好的定义型语料,而其数据的规模为我们从中挖掘序列模式提供了统计意义。本文提出了基于维基百科的定义型问答方法,主要研究了从维基百科中挖掘出频繁出现的定义型序列模式,并将其应用于定义型问答系统。实验结果表明,从维基百科中挖掘出的序列模式可以提高定义型问答系统中答案抽取的性能。本文分两个子任务对论坛中问答对的自动挖掘进行了研究:(1)论坛中问题的自动挖掘。本文采用基于二元分类的方法进行问题句的自动识别,并将问题的自动识别技术第一次应用于中文。(2)论坛中答案的自动挖掘。本文提出了一种新的面向论坛的无监督答案抽取方法,该方法首先利用流行排序对候选答案的内容特征进行排序,然后利用PageRank模型对候选答案的作者权威性特征进行排序,最后使用基于无监督学习的排序融合方法将两种特征排序融合,得到最优化的候选答案排序。实验结果表明,本文的方法比目前最好的无监督答案抽取方法更为有效,在两个测试集上的MRR值分别高出了9.70%和10.31%。
|
全文目录
摘要 3-4 Abstract 4-8 第1章 绪论 8-21 1.1 课题背景 8-10 1.2 课题的研究目的和意义 10-12 1.2.1 课题的研究目的 10-11 1.2.2 课题的研究意义 11-12 1.3 国内外相关研究 12-20 1.3.1 定义型问答 12-18 1.3.2 论坛中问题的自动挖掘 18-19 1.3.3 论坛中答案的自动挖掘 19-20 1.4 本文研究内容 20-21 第2章 基于维基百科的定义型问答 21-39 2.1 训练语料库的建设 22-25 2.1.1 定义型句子的获取 22-24 2.1.2 非定义型句子的获取 24-25 2.2 定义型序列模式的挖掘 25-30 2.2.1 频繁序列模式挖掘 25-26 2.2.2 基于维基百科的定义型序列模式挖掘方法 26-30 2.3 基于维基百科的定义型问答系统 30-32 2.3.1 系统框架 30 2.3.2 定义型句子的分类 30-31 2.3.3 候选答案句的去冗余 31-32 2.4 定义型问答的评测 32-36 2.4.1 定义型问答的人工评测方法 32-35 2.4.2 定义型问答的自动评测方法 35-36 2.5 实验及结果分析 36-38 2.5.1 实验设置 36 2.5.2 实验结果及分析 36-38 2.6 本章小结 38-39 第3章 论坛中问题的自动挖掘 39-46 3.1 中文问题句的自动识别 39-43 3.1.1 论坛中问题句识别的难点 39 3.1.2 基于二元分类的中文问题句自动识别 39-43 3.2 实验及结果分析 43-45 3.2.1 实验设置及结果 43-44 3.2.2 实验分析 44-45 3.3 本章小结 45-46 第4章 论坛中答案的自动挖掘 46-56 4.1 候选答案的特征抽取 46-50 4.1.1 基于流行排序的文本内容特征排序 46-48 4.1.2 基于PageRank的作者特征排序 48-50 4.2 基于无监督排序融合的答案抽取方法 50-51 4.3 实验及结果分析 51-53 4.3.1 实验语料 51-52 4.3.2 评测方法 52 4.3.3 实验结果 52-53 4.4 基于论坛的问答对挖掘演示系统简介 53-55 4.5 本章小结 55-56 结论 56-58 参考文献 58-64 致谢 64-65
|
相似论文
- 基于词义及语义分析的问答技术研究,TP391.1
- 新中国对非洲的文化外交研究,D822
- 中国区域性网上社区的舆情研究,G206
- 传统媒体议程与网络议程的对比研究,G206
- 基于网络论坛的社会公共事件传播研究,G206
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 针对教育视频的虚拟学习社区设计与实现,G434
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- 基于维基百科的命名实体消歧研究,TP391.1
- 面向论坛回帖的文本倾向性分析研究,TP391.1
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 我国网络执政平台运行实践研究,G206.3
- 试论学术外交的论坛型载体,D820
- 多边主义与东北亚安全合作,D73
- 基于维基百科的语义比较,TP391.1
- 网络学术论坛语篇的功能语体分析,H052
- 电子政府公众论坛中政务议题差异性研究,D035
- 网络时代正确引导中学生关心政治热点的研究,G631
- 网络论坛公共领域讨论状况的研究,G206
- 网络时政论坛中舆论领袖的印象管理研究,G206
- 维基百科的网络结构及可信分析,TP393.02
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|