学位论文 > 优秀研究生学位论文题录展示

Web环境下基于语义模式匹配的实体关系提取方法的研究

作 者: 周诗咏
导 师: 申德荣
学 校: 东北大学
专 业: 计算机系统结构
关键词: 模式匹配 实体关系提取 语义相似度计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 13次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的迅猛发展,Web信息资源已成为全球最大的知识库,为了应对信息爆炸带来的挑战,合理而高效地利用Web信息资源,迅速找到有价值的信息,研究者们提出了Web信息抽取(Web Information Exrtaction)的概念。Web信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。Web信息抽取有三个基本任务,命名实体识别、实体关系抽取和事件发现。实体关系抽取不仅是信息抽取的一项重要任务,也是事件发现和多种应用系统的基础,具有重要意义。模式匹配作为Web信息提取的主要方法之一,近年来备受研究者关注。本文分析了现有的实体关系抽取技术并进行了总结。在此基础上提出了一种基于语义模式匹配的实体关系抽取模型(SPMREM)。该方法采用机器学习思想,可以将一个包含有限数目个已确知关系的实体元组的集合作为训练集,从Web页面中提取蕴含命名实体的关系模式,再由此关系模式从特定领域的Web页面中提取实体关系。SPMREM首先采用面向Web页面的关系模式提取方法。通过分析自然语言语句的语义结构,提出一种合理的字符串匹配方法;结合改进的单词语义相似度计算技术,提出一种字符串语义相似度计算方法,可以准确高效的计算字符串之间的语义相关性。并通过基于相似密度的聚类方法,对关系模式进行聚类,提取关系模式集。其次提出一种基于模式匹配的Web页面的实体提取方法,包括基于关系模式匹配的目标实体定位噪音过滤,有效地对Web页面中描述的实体关系进行提取。经过实验验证,本文提出的模式匹配方法能够真正有效地从训练集中抽象出实体关系模式,进而在Web页面中通过模式匹配方法提取出未知的实体关系,并且在准确率和召回率方面都要优于现有方法,使得Web页面中信息得到充分利用,具有很高的应用价值,可以广泛的应用到Web信息集成中。

全文目录


摘要  5-6
Abstract  6-9
第1章 引言  9-15
  1.1 课题背景  9-10
  1.2 国内外研究现状  10-12
  1.3 本文研究的内容  12-13
  1.4 本文研究思路及组织结构  13-15
第2章 相关概念与技术  15-21
  2.1 Web相关技术  15-16
  2.2 搜索引擎  16-18
  2.3 Wordnet  18-20
  2.4 本章小结  20-21
第3章 基于语义模式匹配的关系提取模型(SPMREM)概述  21-27
  3.1 SPMREM的提出  21-22
  3.2 SPMREM体系结构  22-23
  3.3 SPMREM的工作流程  23-25
  3.4 本章小结  25-27
第4章 基于字符串语义相似度的关系模式提取  27-45
  4.1 单词语义相似度计算  28-32
  4.2 字符串匹配方法选择  32-34
  4.3 字符串语义相似度  34-41
  4.4 关系模式生成  41-43
  4.5 本章小结  43-45
第5章 基于关系模式匹配的实体关系提取  45-53
  5.1 基于关系模式匹配的目标实体定位  46-47
  5.2 噪音过滤  47-51
    5.2.1 TF-IDF  47-49
    5.2.2 噪音过滤  49-50
    5.2.3 提取记录置信度计算  50-51
  5.3 本章小结  51-53
第6章 实验与分析  53-61
  6.1 实验设置  53-54
    6.1.1 实验环境设置  53
    6.1.2 实验数据设置  53-54
  6.2 实验结果及分析  54-59
    6.2.1 语义相似度计算实验  54-57
    6.2.2 关系模式聚类实验  57
    6.2.3 实体关系提取实验  57-59
  6.3 本章小结  59-61
第7章 结论  61-63
  7.1 本文的主要贡献与结论  61-62
  7.2 进一步的工作  62-63
参考文献  63-67
致谢  67-69
攻硕期间参加的项目及发表的论文  69

相似论文

  1. 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
  2. Windows系统内核Rootkit的检测技术研究,TP309
  3. 云计算中依赖任务动态并行调度机制的研究,TP3
  4. 虹膜识别关键技术的研究,TP391.41
  5. 基于本体和SWRL推理的知识检索方法研究,TP391.3
  6. 反抄袭检测系统的研究与实现,TP391.1
  7. 指纹识别相关算法的改进研究,TP391.41
  8. 高速网络入侵检测系统设计与实现,TP393.08
  9. Deep Web查询接口集成及搜索策略研究,TP393.09
  10. NIDS模式匹配算法及其调度研究,TP393.08
  11. 人机划拳系统的实现,TP391.41
  12. 分布式非结构化文本数据安全分析系统研究与设计,TP393.08
  13. IDS检测算法和技术研究,TP393.08
  14. DWIIS系统中查询接口集成机制的研究,TP393.09
  15. XML树模式匹配查询研究,TP311.13
  16. 880nmLD泵浦高功率连续单频Nd:YVO_4激光器的研究,TN248
  17. 网络视频流发现及关键帧提取相关技术研究,TP393.08
  18. 一种基于小枝模式匹配的XML数据查询处理算法,TP311.10
  19. 基于XML的异构数据库共享研究,TP311.13
  20. 创新设计启发引擎的联想过程算法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com