学位论文 > 优秀研究生学位论文题录展示

基于图书的概念上下位关系和多侧面定义的抽取

作 者: 张萌
导 师: 吴江琴; 鲁伟明
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 上下位关系 多侧面定义 分类体系 知识库 数字图书馆
分类号: TP391.3
类 型: 硕士论文
年 份: 2014年
下 载: 13次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,知识库在信息检索、文本理解等方面显得越发至关重要,但是如何为任意领域构建一个大规模知识库仍是一件非常有挑战性的工作。幸运的是,已有大量的图书在数字图书馆中被数字化,比如,CADAL数字图书馆近十年来已经数字化了260多万册图书,这些图书中蕴含着大量的知识。如果我们可以直接从大量的图书中学习出概念间的上下位关系和概念的定义,这将会对知识库构建产生很大的帮助。在本文中,我们提出了一种基于图书构建知识库的方法,能从大量的图书中分析挖掘出概念的分类体系以及多侧面定义。分类体系主要基于图书目录关系从中抽取出的上下位关系和并列关系,通过概念验证、条件过滤以及排序等步骤来构建。多侧面定义则是:首先通过基于图书目录的搜索引擎从图书中抽取出候选定义,然后再对候选定义进行聚类和排序以找出多侧面定义。通过上述方法,我们可以完全基于数字图书馆中海量的图书来构建知识库。该方法在CADAL数字图书馆的百万册图书中进行了实践,实验结果表明我们的方法是行之有效的。

全文目录


摘要  4-5
Abstract  5-11
第1章 绪论  11-16
  1.1 课题背景  11-14
  1.2 本文组织结构  14-15
  1.3 本章小结  15-16
第2章 国内外研究现状  16-27
  2.1 现有的上下位关系抽取的方法  16-22
    2.1.1 基于模式的方法  16-19
    2.1.2 基于分布特征的方法  19
    2.1.3 基于半结构化或者结构化内容的方法  19-21
    2.1.4 基于异构证据的集成的方法  21
    2.1.5 基于众包的方法  21-22
  2.2 现有的定义抽取的方法  22-23
    2.2.1 基于模式的方法  23
    2.2.2 基于机器学习的方法  23
  2.3 自然语言处理工具  23-24
    2.3.1 FudanNLP  23-24
  2.4 知识图谱上的聚类算法  24-25
    2.4.1 AP聚类  24-25
  2.5 对知识图谱的存储  25-26
    2.5.1 图数据库Neo4j  25-26
  2.6 本章小结  26-27
第3章 基于图书目录抽取概念的上下位关系  27-42
  3.1 基于图书目录构建知识图谱的概述  27-28
  3.2 知识图谱中概念的生成  28-34
    3.2.1 对章节名处理产生候选概念  28-34
  3.3 利用并列关系对上下位关系进行增量补充  34-39
    3.3.1 强弱并列关系的区分  34-35
    3.3.2 知识节点间相关度  35-36
    3.3.3 利用并列关系进行补充  36-39
  3.4 利用目录子结构对上下位关系进行增量补充  39
  3.5 对知识图谱中的上下位关系进行清洗合并  39-40
  3.6 使用图数据库Neo4j进行存储并提供对外服务  40-41
  3.7 本章小结  41-42
第4章 基于图书的抽取概念的多侧面定义  42-47
  4.1 概念定义的概述  42-43
  4.2 定义性句子的抽取  43-44
  4.3 对候选定义进行聚类并产生多侧面的定义  44-46
    4.3.1 对候选定义进行特征抽取和相似度的计算  44-46
  4.4 本章小结  46-47
第5章 实验  47-56
  5.1 数据集的分布情况  47-48
  5.2 分类体系构建的评估  48-52
  5.3 定义抽取的评估  52-55
  5.4 本章小结  55-56
第6章 总结与展望  56-57
  6.1 总结  56
  6.2 展望  56-57
参考文献  57-62
攻读硕士学位期间主要的研究成果  62-63
致谢  63-64
作者简历  64

相似论文

  1. 数字图书馆信息资源开发利用中的著作权集体管理研究,D923.41
  2. 宗教类唐卡图像知识库的构建研究,TP391.41
  3. 面向领域的数据库问答系统关键技术研究,TP311.13
  4. 制造特征提取与智能工艺决策技术研究,TH162
  5. 数字图书馆信息服务视域下的著作权问题研究,D923.41
  6. 汉语框架自动识别中的歧义消解,TP391.1
  7. 基于云计算的数字图书馆服务模式研究,G250.76
  8. 数字图书馆适用法定许可制度研究,D923.41
  9. 面向数字图书馆的信息网络传播权优化研究,D923.41
  10. 可持续发展的宁波市区域数字图书馆建设模式探析,G250.76
  11. 机构知识库资源建设研究,G250.74
  12. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  13. 基于知识库理论的装备管理系统的设计与实现,TP311.52
  14. 基于专家知识库的医院体检自动化诊断系统设计与实现,TP311.52
  15. 《城乡规划法》背景下的城乡用地分类研究,F301
  16. 数字图书馆的著作权问题研究,G250.76
  17. 基于数据挖掘的健康体检管理系统的设计与实现,TP311.52
  18. 国际职业标准分类体系更新及与中国的比较,C913.2
  19. 基于SaaS的汽车零部件设计模式研究,U463
  20. 电子化疾病护理知识库的开发研究,R47
  21. 村镇教育信息资源组织策略及应用研究,G527

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com