学位论文 > 优秀研究生学位论文题录展示
基于LDA模型的实体解析技术的研究与实现
作 者: 张田田
导 师: 张雷
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 实体解析 LDA模型 实体关系 Gibbs抽样
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 15次
引 用: 0次
阅 读: 论文下载
内容摘要
随着因特网的飞速发展,数据获取途径日益多样化,数据质量问题越来越被重视,数据中的歧义问题就是一个备受关注的数据质量问题,在一个或者多个数据库中,同一个现实世界实体可能有多种描述方法,或者多个实体会有同一中描述方法。实体歧义问题存在于不同领域中,如学术网络、基于关键字的检索数据、电子邮件、电影数据库的人名歧义、关系数据库中的记录歧义等。LDA模型是为文本文档集合以及其他离散数据集合建模的一个生成模型,主要用于文本处理中的主题发现。本文对LDA模型进行扩展提出了LDA实体解析模型,即将实体解析问题转换为一个概率问题,在原有LDA三层模型的基础上增加一层,通过修改实体的属性获得实体的引用。在参考和改进前人对LDA模型的推导的研究基础上,使用Gibbs抽样实现了LDA实体解析模型的参数推导,并提出了一种简单的方法大概估计实体的个数,使用Blocking技术将实体引用分配到不同的分区,这不仅可以减少实体引用比较的计算量,而且可以大概估计实体的个数。为了验证基于LDA模型的实体解析方法的有效性,实现了被广泛使用的实体解析方法:基于实体引用聚类的方法和基于社会网络分析的方法,并在网页数据和文献合作数据上验证基于LDA模型的实体解析方法与其他两种已有实体解析方法,并且使用不同的评测方法进行比较。实验表明,相对于其他两种方法,基于LDA模型的实体解析方法准确性比较高,取得了较好的效果。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-16 1.1 课题研究背景 9 1.2 课题研究的目的和意义 9-10 1.3 国内外相关技术发展现状 10-14 1.3.1 基于字符串相似性的方法 11-12 1.3.2 基于实体属性和关系的方法 12-13 1.3.3 概率模型在实体应用中的应用 13-14 1.4 论文的主要研究内容 14-15 1.4.1 基于聚类和社会网络分析的实体解析方法的实现 14 1.4.2 基于LDA模型的实体解析方法 14 1.4.3 实体解析方法的应用 14-15 1.5 论文的主要结构 15-16 第二章 实体解析相关技术与评价方法 16-32 2.1 实体解析问题概述 16-17 2.2 Blocking和windowing技术 17-19 2.2.1 Blocking方法介绍 17-19 2.2.2 Windowing方法介绍 19 2.3 LDA模型 19-27 2.3.1 LDA模型介绍 19-22 2.3.2 LDA模型参数推导 22-27 2.4 实体解析方法的评价 27-32 2.4.1 基于数据对的评测 28 2.4.2 基于聚类的评测 28-30 2.4.3 基于聚类距离的评测方法 30-32 第三章 LDA实体解析模型的提出与相关算法实现 32-51 3.1 LDA实体解析模型 32-36 3.1.1 引导例子 32-33 3.1.2 作者-群组的LDA模型 33-34 3.1.3 LDA实体解析模型 34-36 3.2 LDA实体解析模型参数推导 36-41 3.2.1 LDA实体解析模型推导 36-38 3.2.2 实体个数的确定 38-39 3.2.3 标签初始化及参数的确定 39-41 3.3 基于聚类的实体解析方法的实现 41-46 3.3.1 聚类方法概述 41-43 3.3.2 基于聚类的实体解析方法的实现 43-46 3.4 基于社会网络分析的实体解析方法的实现 46-51 3.4.1 社会网络分析概述 46-49 3.4.2 基于社会网络分析的实体解析方法 49-51 第四章 实体解析的应用与实验分析 51-65 4.1 网页人物消歧 51-60 4.1.1 网页数据的获取 52-53 4.1.2 网页数据的处理 53-57 4.1.3 实验分析 57-60 4.2 文献合作中人名消歧 60-62 4.3 实验总结 62-65 第五章 总结与展望 65-67 5.1 本文总结 65-66 5.2 研究展望 66-67 参考文献 67-69 致谢 69-70 作者攻读学位期间发表的学术论文目录 70
|
相似论文
- 贝叶斯方法下二值与多值序次数据模型与异常点的同时识别,O212.1
- 基于查询扩展的信息抽取技术研究及应用,TP391.1
- 基于特征向量的实体间语义关系抽取研究,TP391.1
- 基于社会标签系统的推荐技术研究,TP391.3
- 基于Gibbs抽样法及模拟过滤法对前馈环调控速率的估计,O211.67
- 基于马尔科夫逻辑网络的实体解析技术研究及系统实现,TP18
- Web人名消歧方法的研究与实现,TP391.1
- 竞争失效模型的贝叶斯分析,O212.8
- 连续型协变量区间删失时的线性回归模型,O212.1
- 多关系社会网络分析和可视化系统的研究,O157.5
- 面向生物医学领域的跨语言信息检索,TP391.3
- 多元表征军事信息可信度研究,TP393.09
- 基于GraphOLAP的文献分析与可视化系统的研究与实现,TP391.1
- 基于退化失效模型的统计分析,O212.7
- 指数威布尔分布的统计分析,O212.1
- 双重时间序列模型参数估计的一类新方法,O211.61
- 有序的误分类数据的贝叶斯分析,O212
- 基于随机微分方程和结构EM算法的系统发生树的构建,O211.63
- 有序属性响应半参数回归模型的贝叶斯分析,O212.8
- 泊松冲击下退化失效模型的统计分析,O212
- 基于LDA模型的文本分类研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|