学位论文 > 优秀研究生学位论文题录展示

人物简历问答系统的研究与实现

作 者: 邢欣来
导 师: 何中市
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 问答系统 Web挖掘 人物简历 频繁模式挖掘
分类号: TP311.52
类 型: 硕士论文
年 份: 2009年
下 载: 86次
引 用: 1次
阅 读: 论文下载
 

内容摘要


当前的搜索引擎主要基于字符串匹配的方式,用户只能通过输入关键词进行搜索,这种方式不能准确获取用户所需信息,而基于自然语言问答方式的搜索引擎可以弥补前者的不足,成为下一代搜索引擎的重要发展趋势。如今,开放领域问答系统的研究已经有很多,其中涉及到人物、时间、地点、历史重要事件和专业技术等领域,并且面向这些领域的受限领域问答系统的理论研究和应用开发在一定程度上推动了开放领域问答系统研究的发展。本文针对人物简历这一受限领域问答系统的答案抽取方案开展了研究,并实现了原型系统,其主要包括一下几部分工作:首先,分析人物简历问答系统的研究现状、相关概念和实现技术,以及它的应用需求和文本特征。其次,提出了基于频繁子树挖掘的答案抽取方案。该方案通过语法分析工具将样本语料库中的答案文本转化为上下文无关语法树,并使用TreeMiner频繁子树挖掘算法,从中挖掘频繁模式生成答案模板集。通过计算候选答案的上下午无关语法树与答案模板集合中模板的匹配度,据此确定答案。然后通过对比基于频繁子树挖掘和基于频繁序列挖掘两种答案抽取方案的对比实验,证明了基于频繁子树挖掘的答案抽取方案的良好效果。随后,设计并实现了人物简历问答原型系统。设计主要包括:人物简历问答系统的数据流程设计,系统功能模块设计以及主要功能模块的相关数据结构设计。系统实现主要包括:使用HtmlParser页面解析工具对网页中人物条目及相关文本的自动抽取;使用StanfrodParser语法分析工具完成句法树的分析和TreeMiner频繁子树挖掘算法实现人物简历答案的抽取;展示该原型系统的功能界面,并分析系统的性能及其应用前景。最后,本文对研究工作进行了总结,提出了今后进一步的研究方向。

全文目录


摘要  3-4
ABSTRACT  4-8
1 引言  8-13
  1.1 问答系统的定义  8
  1.2 国内外研究现状  8-11
    1.2.1 问答系统的研究现状  8-10
    1.2.2 人物简历问答系统的研究现状  10-11
  1.3 人物简历问答系统的研究意义  11-12
  1.4 本文的主要研究内容  12-13
2 人物简历问答系统构建的核心技术分析  13-19
  2.1 开放领域问答系统的构建模式  13-14
  2.2 人物简历问答系统的特点  14-16
    2.2.1 问题句子的结构简单  14
    2.2.2 人物信息数据量庞大  14-15
    2.2.3 人物简历文本的组织方式  15-16
  2.3 系统构建核心问题  16-18
    2.3.1 人物简历答案抽取  17
    2.3.2 人物信息检索  17-18
  2.4 本章小结  18-19
3 答案抽取及其相关工作  19-24
  3.1 答案抽取的相关问题  19
    3.1.1 答案的形式  19
    3.1.2 答案的来源及组织方式  19
  3.2 答案抽取的常见方式  19-23
    3.2.1 基于匹配规则的答案抽取  19-20
    3.2.2 基于机器学习方法的答案抽取  20-22
    3.2.3 基于模式挖掘方法的答案抽取  22-23
  3.3 答案抽取策略的选择  23
  3.4 本章小结  23-24
4 基于模式挖掘的答案抽取方案  24-46
  4.1 基于序列模式挖掘的答案抽取方案  24-32
    4.1.1 序列模式  24
    4.1.2 最大频繁序列的定义  24-25
    4.1.3 几种常用的最大频繁序列挖掘算法  25-30
    4.1.4 序列模式匹配算法  30-31
    4.1.5 最大频繁序列挖掘答案抽取方案  31-32
  4.2 基于树模式挖掘的答案抽取方案  32-40
    4.2.1 树模式  32-33
    4.2.2 最大频繁子树的定义  33-34
    4.2.3 TreeMiner 最大频繁子树挖掘算法  34-37
    4.2.4 树模式匹配算法  37
    4.2.5 PCFG(概率型上下文无关文法)语法树  37-39
    4.2.6 最大频繁子树挖掘答案抽取方案  39-40
  4.3 两种答案抽取方案的效果对比实验及结果分析  40-45
    4.3.1 实验设计  40-41
    4.3.2 实验数据来源及效果评价方式  41-42
    4.3.3 实验数据分析及结论  42-45
  4.4 本章小结  45-46
5 人物简历问答原型系统实现  46-57
  5.1 系统整体结构设计  46-48
    5.1.1 系统功能模块设计  46-47
    5.1.2 系统数据流程设计  47-48
  5.2 信息检索模块设计与实现  48-52
    5.2.1 信息检索模块功能设计  48-49
    5.2.2 信息检索模块实现  49-52
  5.3 答案抽取模块设计与实现  52-53
    5.3.1 答案抽取模块功能设计  52
    5.3.2 答案抽取模块实现  52-53
  5.4 系统开发相关设备及工具  53-54
  5.5 系统功能界面展示及性能评价  54-56
  5.6 本章小结  56-57
6 总结与展望  57-59
  6.1 总结  57
  6.2 展望  57-59
致谢  59-60
参考文献  60-63
附录  63
  A. 作者在攻读硕士学位期间发表及录用的论文目录  63
  B. 作者在攻读硕士学位期间参加的科研项目以及得奖情况  63

相似论文

  1. 针对教育视频的虚拟学习社区设计与实现,G434
  2. Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
  3. 英汉跨语言问答系统中的文档语义检索,TP391.1
  4. 基于知网的受限域问答系统原型的设计与实现,TP391.1
  5. 领域知识对领域问答系统答案抽取影响研究,TP391.3
  6. 基于增量改进贝叶斯领域问句分类研究,TP391.3
  7. 问答对自动获取的研究,TP391.1
  8. 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
  9. 基于WEB挖掘的E-learning环境下的个性化教学平台研究,TP391.6
  10. E-Learning系统中基于课程本体的用户兴趣模型挖掘,TP311.13
  11. 改进的语句相似度算法在问答系统中的应用研究,TP391.1
  12. 基于贝叶斯分类方法的中文问句分类研究,TP391.1
  13. 基于意义理解的问答系统设计与实现,TP311.52
  14. 基于Web挖掘的建构主义远程教学系统研究,TP391.6
  15. 中文问答系统中问题分析关键技术的研究,TP391.1
  16. 事实型中文问答系统中片段检索方法的研究,TP391.1
  17. 受限域问答系统文本检索研究,TP391.1
  18. 限定领域内问答系统的设计与实现,TP391.3
  19. 大规模真实文本中的人物职衔信息提取研究,H08
  20. 基于支持向量机的中文问题分类研究,TP18
  21. 中文问答系统中多策略答案抽取技术的研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com