学位论文 > 优秀研究生学位论文题录展示

基于LDA模型的实体解析技术的研究与实现

作 者: 张田田
导 师: 张雷
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 实体解析 LDA模型 实体关系 Gibbs抽样
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 15次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着因特网的飞速发展,数据获取途径日益多样化,数据质量问题越来越被重视,数据中的歧义问题就是一个备受关注的数据质量问题,在一个或者多个数据库中,同一个现实世界实体可能有多种描述方法,或者多个实体会有同一中描述方法。实体歧义问题存在于不同领域中,如学术网络、基于关键字的检索数据、电子邮件、电影数据库的人名歧义、关系数据库中的记录歧义等。LDA模型是为文本文档集合以及其他离散数据集合建模的一个生成模型,主要用于文本处理中的主题发现。本文对LDA模型进行扩展提出了LDA实体解析模型,即将实体解析问题转换为一个概率问题,在原有LDA三层模型的基础上增加一层,通过修改实体的属性获得实体的引用。在参考和改进前人对LDA模型的推导的研究基础上,使用Gibbs抽样实现了LDA实体解析模型的参数推导,并提出了一种简单的方法大概估计实体的个数,使用Blocking技术将实体引用分配到不同的分区,这不仅可以减少实体引用比较的计算量,而且可以大概估计实体的个数。为了验证基于LDA模型的实体解析方法的有效性,实现了被广泛使用的实体解析方法:基于实体引用聚类的方法和基于社会网络分析的方法,并在网页数据和文献合作数据上验证基于LDA模型的实体解析方法与其他两种已有实体解析方法,并且使用不同的评测方法进行比较。实验表明,相对于其他两种方法,基于LDA模型的实体解析方法准确性比较高,取得了较好的效果。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-16
  1.1 课题研究背景  9
  1.2 课题研究的目的和意义  9-10
  1.3 国内外相关技术发展现状  10-14
    1.3.1 基于字符串相似性的方法  11-12
    1.3.2 基于实体属性和关系的方法  12-13
    1.3.3 概率模型在实体应用中的应用  13-14
  1.4 论文的主要研究内容  14-15
    1.4.1 基于聚类和社会网络分析的实体解析方法的实现  14
    1.4.2 基于LDA模型的实体解析方法  14
    1.4.3 实体解析方法的应用  14-15
  1.5 论文的主要结构  15-16
第二章 实体解析相关技术与评价方法  16-32
  2.1 实体解析问题概述  16-17
  2.2 Blocking和windowing技术  17-19
    2.2.1 Blocking方法介绍  17-19
    2.2.2 Windowing方法介绍  19
  2.3 LDA模型  19-27
    2.3.1 LDA模型介绍  19-22
    2.3.2 LDA模型参数推导  22-27
  2.4 实体解析方法的评价  27-32
    2.4.1 基于数据对的评测  28
    2.4.2 基于聚类的评测  28-30
    2.4.3 基于聚类距离的评测方法  30-32
第三章 LDA实体解析模型的提出与相关算法实现  32-51
  3.1 LDA实体解析模型  32-36
    3.1.1 引导例子  32-33
    3.1.2 作者-群组的LDA模型  33-34
    3.1.3 LDA实体解析模型  34-36
  3.2 LDA实体解析模型参数推导  36-41
    3.2.1 LDA实体解析模型推导  36-38
    3.2.2 实体个数的确定  38-39
    3.2.3 标签初始化及参数的确定  39-41
  3.3 基于聚类的实体解析方法的实现  41-46
    3.3.1 聚类方法概述  41-43
    3.3.2 基于聚类的实体解析方法的实现  43-46
  3.4 基于社会网络分析的实体解析方法的实现  46-51
    3.4.1 社会网络分析概述  46-49
    3.4.2 基于社会网络分析的实体解析方法  49-51
第四章 实体解析的应用与实验分析  51-65
  4.1 网页人物消歧  51-60
    4.1.1 网页数据的获取  52-53
    4.1.2 网页数据的处理  53-57
    4.1.3 实验分析  57-60
  4.2 文献合作中人名消歧  60-62
  4.3 实验总结  62-65
第五章 总结与展望  65-67
  5.1 本文总结  65-66
  5.2 研究展望  66-67
参考文献  67-69
致谢  69-70
作者攻读学位期间发表的学术论文目录  70

相似论文

  1. 贝叶斯方法下二值与多值序次数据模型与异常点的同时识别,O212.1
  2. 基于查询扩展的信息抽取技术研究及应用,TP391.1
  3. 基于特征向量的实体间语义关系抽取研究,TP391.1
  4. 基于社会标签系统的推荐技术研究,TP391.3
  5. 基于Gibbs抽样法及模拟过滤法对前馈环调控速率的估计,O211.67
  6. 基于马尔科夫逻辑网络的实体解析技术研究及系统实现,TP18
  7. Web人名消歧方法的研究与实现,TP391.1
  8. 竞争失效模型的贝叶斯分析,O212.8
  9. 连续型协变量区间删失时的线性回归模型,O212.1
  10. 多关系社会网络分析和可视化系统的研究,O157.5
  11. 面向生物医学领域的跨语言信息检索,TP391.3
  12. 多元表征军事信息可信度研究,TP393.09
  13. 基于GraphOLAP的文献分析与可视化系统的研究与实现,TP391.1
  14. 基于退化失效模型的统计分析,O212.7
  15. 指数威布尔分布的统计分析,O212.1
  16. 双重时间序列模型参数估计的一类新方法,O211.61
  17. 有序的误分类数据的贝叶斯分析,O212
  18. 基于随机微分方程和结构EM算法的系统发生树的构建,O211.63
  19. 有序属性响应半参数回归模型的贝叶斯分析,O212.8
  20. 泊松冲击下退化失效模型的统计分析,O212
  21. 基于LDA模型的文本分类研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com