学位论文 > 优秀研究生学位论文题录展示
面向跨领域文档分类的异构迁移学习算法研究
作 者: 谭琦
导 师: 邓辉舫
学 校: 华南理工大学
专 业: 计算机应用技术
关键词: 迁移学习 文档分类 领域距离 多视图学习 链接网络 主题模型
分类号: TP181
类 型: 博士论文
年 份: 2013年
下 载: 79次
引 用: 0次
阅 读: 论文下载
内容摘要
传统的机器学习方法通常存在两个主要问题,一个是数据独立同分布的基本假设前提,在实际应用中并不成立;另一个是目标领域的训练样本稀缺,难以训练出一个具有良好泛化能力的模型。迁移学习是一种新的异构机器学习方法,在文档分类、情感分类、协同过滤、计算机视觉、网络搜索排序等领域都有着广泛的应用。它能在源领域与目标领域的数据分布不同但相关的条件下,通过挖掘源领域和目标领域的隐含的共性信息,实现知识在异构领域间的迁移和重用,极大地降低获取目标领域数据标签的昂贵代价。在异构迁移学习的实际应用中,普遍存在领域异构、视图异构和背景知识异构等不同形式的数据异构问题。本文主要关注异构迁移学习研究,即如何挖掘异构数据(领域、视图、背景知识等)之间隐含的共性知识,实现异构数据之间的知识迁移。针对领域异构问题,本文提出了一种基于最大间隔的核均值匹配的迁移学习算法。针对双异构(领域异构和视图异构)问题,本文提出一种新的多视图迁移学习算法,实现知识在领域和视图之间的迁移。同时,针对跨领域文档分类问题,本文提出一个结合文本内容和链接结构的主题挖掘算法,挖掘文档隐含的主题结构。针对背景知识异构问题,本文提出新的辅助链接网络构造方法,挖掘文档之间隐含的共引用关系。具体而言,本文主要贡献如下:1.基于最大间隔的核均值匹配的迁移学习算法在领域异构方面,针对跨领域迁移学习中存在的实例权重估算问题,本文提出了一种KMM-LM的算法。KMM-LM算法的基本思想是:结合源领域数据的类标签知识,希望在一个基于最大间隔的优化框架中,同时寻找最优分类超平面以及源领域实例权重向量,两者之间彼此互补且约束,调整形成一个良好的循环,达到共同最优。KMM-LM模型将核均值匹配法(KMM)和支持向量机(SVM)这两个独立的阶段,整合并优化成一个基于最大间隔的模型(KMM-LM)。这样能同时找到分类超平面的最优权重向量,和源领域的最优权重向量。2.基于多视图的迁移学习算法在领域异构和视图异构方面,针对跨领域的迁移学习应用中,如何衡量不同领域之间的领域差异,以及如何增强多个视图之间的一致性的问题,本文提出了一个新颖的简称为DV2S的迁移学习算法。DV2S算法的思想是,将异构领域的距离差异和多个视图之间的一致性,集成到一个两视图的SVM框架中去考虑,从而能够在最大分类间隔、最小领域距离和视图不一致最小化,三者之间取得最优和平衡。算法首先用投影的最大平均差异法(MMD),分别度量文本内容和文本链接两个不同视图中的跨领域距离;同时,根据不同视图的分类器预测输出估算视图的不一致。然后,将领域距离和视图不一致性集成在一个两视图的SVM模型中。该优化问题可以转换成线性约束的二次优化问题,进行高效求解。3.基于辅助链接网络的迁移学习模型在背景知识异构方面,如何让有效地利用网络上大量异构的在线背景知识,来帮助提高迁移学习的性能,这个重要且新颖的研究问题。为此,本文首先深入研究了在线背景知识是否能够用来帮助跨领域的迁移学习,以及怎样有效利用在线背景知识来缩小领域的差距和提高迁移学习的性能。然后在分析基础上,本文提出了一种基于辅助链接网络的迁移学习模型。该方法的思想是,借助辅助链接网络,将背景知识嵌入到一个图核中,可以更好地挖掘原始数据集中源领域和目标领域隐含的共性知识。通过挖掘辅助链接网络的共引用关系,不仅可以有效降低数据特征的稀疏性,丰富文档的表示,而且通过共享文档引入了新的领域共享特征,有助于填补领域之间的差距。4.基于多视图的主题模型的迁移学习算法在领域异构和视图异构方面,针对跨领域文档分类中,因忽略了文档之间的链接结构,从而导致共有知识挖掘不完整的问题,本文提出了一种新颖的主题模型(TMV),以互补地融合了文本内容和文本链接信息两种视图进行迁移学习。TMV的主要思想是:在不同领域的文档,可能会从内容信息和链接结构的角度,共享一些潜在的共同主题。这样就可以相互加强对共同主题的识别,从而提高异构领域的分类性能。所以,本文将文档之间的内容信息和链接信息合并且集成到一个统一的概率模型,从模型中挖掘出隐藏的通过链接关联的共享主题。基于这种共享主题结构,TMV模型实现了在不同领域之间有效的知识迁移。实验结果表明,本文提出的上述异构迁移学习算法具有较好的数据分类精度,其原因在于,这些算法结合考虑了领域实例、特征、背景知识、视图一致性、链接隐含主题等诸多数据异构因素。虽然本文提出算法目前主要应用于跨领域的文档分类处理,但也很容易扩展应用到其他领域,例如:图像分类、情感分类、协同过滤、网络搜索排序等。
|
全文目录
摘要 5-7 ABSTRACT 7-11 目录 11-13 图索引 13-14 表索引 14-15 第一章 绪论 15-25 1.1 课题背景和意义 15-16 1.2 研究问题描述 16-20 1.2.1 文档分类的问题 16-18 1.2.2 迁移学习的适用领域 18-20 1.3 本文的主要贡献 20-23 1.4 本文的组织结构 23-25 第二章 迁移学习的研究现状 25-39 2.1 迁移学习的概述 25-29 2.2 迁移学习和其他学习的比较 29-33 2.2.1 传统的机器学习 29-32 2.2.2 多任务学习 32-33 2.3 迁移学习的关键研究点 33-37 2.3.1 基于实例权重的迁移 33-34 2.3.2 基于特征分布的迁移 34-36 2.3.3 基于共享参数的迁移 36-37 2.4 小结 37-39 第三章 基于最大间隔的核均值匹配的迁移学习 39-52 3.1 引言 39-40 3.2 相关研究 40-42 3.3 基于最大间隔的核均值匹配算法 42-47 3.3.1 提出的模型 42-43 3.3.2 目标 43-46 3.3.3 算法 46-47 3.4 实验结果与分析 47-51 3.4.1 数据集和构造 47-49 3.4.2 性能分析 49-51 3.5 小结 51-52 第四章 基于多视图的迁移学习 52-67 4.1 引言 52-53 4.2 相关研究 53-55 4.2.1 单视图的迁移学习 53-54 4.2.2 多视图的迁移学习 54-55 4.3 基于多视图的跨领域知识迁移算法 55-61 4.3.1 问题描述 55-56 4.3.2 目标函数 56-60 4.3.3 分类预测 60 4.3.4 算法 60-61 4.4 实验结果与分析 61-65 4.4.1 数据集及其构建 61-62 4.4.2 算法比较 62-63 4.4.3 视图间的互补 63 4.4.4 结果评价 63-65 4.5 小结 65-67 第五章 基于在线背景知识的迁移学习 67-88 5.1 引言 67-68 5.2 相关研究 68-71 5.2.1 异构在线知识库的帮助 68-69 5.2.2 异构社交网络的帮助 69-71 5.3 相关算法及分析 71-79 5.3.1 基于在线知识的跨领域文档分类 72-75 5.3.2 基于在线知识的异构迁移学习 75-77 5.3.3 基于在线知识的协同过滤和在线推荐 77-78 5.3.4 基于在线知识的其他应用 78-79 5.4 基于辅助链接网络的迁移学习模型 79-86 5.4.1 问题的描述 80-81 5.4.2 构建辅助链接网络减小领域差距 81-84 5.4.3 辅助网络性能的实验结果与分析 84-86 5.5 小结 86-88 第六章 基于多视图的主题模型的迁移学习 88-107 6.1 引言 88-89 6.2 相关研究 89-91 6.2.1 单视图的迁移学习 89-90 6.2.2 多视图的迁移学习 90-91 6.3 基于多视图的主题模型的迁移算法 91-98 6.3.1 问题的描述 91-92 6.3.2 TMV 模型的提出和分析 92-94 6.3.3 TMV 模型的步骤 94-96 6.3.4 TMV 的算法 96-98 6.4 实验结果与分析 98-105 6.4.1 数据集及其构建 98-99 6.4.2 算法比较和分析 99-103 6.4.3 参数敏感度 103-104 6.4.4 收敛性 104-105 6.5 小结 105-107 总结和展望 107-113 参考文献 113-127 攻读博士学位期间取得的研究成果 127-129 致谢 129-130 答辩委员会对论文的评定意见 130
|
相似论文
- 税务数据仓库系统的设计与应用,TP311.13
- 基于概率主题模型的中文话题检测与追踪研究,TP391.1
- 基于注意力选择机制的图像分割与场景理解,TP391.41
- 基于主题模型的高分辨率遥感影像变化检测,TP751
- 基于扩展监督主题模型的高分辨率合成孔径雷达图像的分类与标注,TN957.52
- 监督主题模型的研究与应用,TP391.1
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 基于内容的商品图像分类技术研究,TP391.41
- 图像与文本数据间的异构迁移学习,TP391.41
- 软件缺陷自动分派研究,TP311.52
- 基于图模型的Web文档分类方法研究,TP391.1
- 基于概率主题模型的游记文本知识挖掘,TP391.1
- 税务数据信息挖掘模式的研究与设计,F812.42
- 概率主题模型及其在关联文本分类中的应用研究,TP391.1
- 基于潜在语义分析的单文本自动摘要方法研究,TP391.1
- 企业办公数据安全保护系统设计研究,TP309.2
- 基于正负关联规则的Web文档分类研究,TP391.1
- 基于主题模型的专家检索及应用挖掘,TP391.3
- 基于LDA的主题演化研究与实现,TP311.13
- 关于小学数学迁移能力培养的实践与研究,G623.5
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|