学位论文 > 优秀研究生学位论文题录展示
域适应算法以及基于用户迁移的个性化机器学习应用
作 者: 涂文婷
导 师: 孙仕亮
学 校: 华东师范大学
专 业: 计算机应用技术
关键词: 域适应 用户迁移 数据降维 集成学习 信号分类
分类号: TP181
类 型: 硕士论文
年 份: 2012年
下 载: 31次
引 用: 0次
阅 读: 论文下载
内容摘要
本文专注于域适应算法上的研究,并探索域适应算法在基于用户迁移的个性化机器学习上的应用潜力。在理论方面,本文提出了三种创新的域适应算法。另外本文在实际应用方法特别提出了利用域适应算法来实现基于用户迁移的机器学习应用,并以脑电信号分类系统为例展现了这一思想的重要性和可行性。域适应问题在机器学习领域已获得了越来越广泛的关注。它对应于训练样本和测试样本是基于不同分布的情景,这在真实的应用上是非常普遍的。例如对于面向用户的服务型机器学习应用(例如脑电分类,语音识别,脸部识别)上,常常为了提高用户体验以及一些实际的约束而面临训练样本和测试样本是来自于不同的用户群体,此时由于用户群体上的分类模式差异,会导致训练模型不适合目标用户。又例如自然语言处理中,也常常要面临训练预料和测试样例的数据分布差异。所以,域适应是一个十分具有研究价值的问题。本文提出了三种创新的域适应算法,从特征表示和分类模型阶段都对传统方法做出了改进,并以脑电信号分类为例探讨它们在实现基于用户迁移的机器学习应用上的前景。本文提出的第一个域适应的算法是可迁移的判别式特征降维方法,它从判别性和迁移性两个方面来同时优化低维空间。从而避免了传统的判别性降维方法得到的低维空间将过拟合于源数据的危险。它通过设计度量域适应情景中低维空间的判别性和迁移性的数学项,然后通过优化由它们构成的目标函数来学习到低维空间。从而使得在低维空间中,不仅保持了数据的判别性,也能够增加源域模型对于目标域的迁移性。本文通过利用模拟数据和真实数据上的实验来验证了算法能够学习到一个更加适合域适应情景的低维空间。并通过可视化这些低维空间来更加验证了它们的优势。本文提出的第二个算法是基于稳健适应双视角和反向近邻策略的动态域适应,它的思想是利用集成学习框架来结合多个源用户数据产生的基本模型。算法在两个层次上提出了创新,在构建基本模型集合时,从适应性和稳健性两方面来进行优化从而构建具有互补性的基本模型集。适应性是针对于适应目标域而言,稳健性是针对于能够稳健于域之间差异而言。另外,在决定模型权值层次上,算法利用了基于反向近邻策略的动态加权准则。利用每个测试样本在源数据上的近邻们的结构来动态决定权值。在九个真实数据上的实验表明了算法的有效性。本文提出的最后一个算法是针对于消除对目标域样本限制的出发点设计的域适应算法。通过利用集成学习框架将动态分配权值转化为可以利用统计分类理论的二类分类问题,算法为每个基本模型建立了一个模型友好分类器,这个分类器的训练目标是为了预测一个样本是否适合于对应模型来进行后续任务。如此,针对于每个测试样本,能够根据基本模型集的模型友好分类器集的结果来决定最后在组合分类器中的权值。算法不要求目标域具有训练或测试样本,只是根据源域和目标域的分布不同的事实来更加小心地决定权值,从而增加模型对于测试样本的泛化性能。在真实数据集上的实验结果证明了算法的有效性。总结下来,本文不仅从理论上提出了域适应领域的创新算法,也结合探讨了有前景的应用方向。从理论和应用两个层次上都具有一定的创新价值。
|
全文目录
摘要 6-8 ABSTRACT 8-13 第一章 研究背景和目标 13-18 1.1 域适应算法的研究 13-14 1.2 基于用户迁移的个性化机器学习应用 14-15 1.3 论文的组织结构 15-18 第二章 脑电信号分类系统简介 18-26 2.1 脑电信号分类系统的意义 18-19 2.2 脑电信号分类系统的实现 19 2.3 脑电图信号分类原理简介 19-24 2.3.1 脑电图的起源 19-20 2.3.2 脑电图的产生机理 20 2.3.3 脑电图的检测方法 20-22 2.3.4 脑电图的频带分布 22 2.3.5 脑电图信号如何分类 22-24 2.4 基于用户迁移的脑电分类系统 24-25 2.5 本章结论 25-26 第三章 可迁移的判别式数据降维方法 26-42 3.1 传统的判别式特征降维方法 26-27 3.2 可迁移的判别式特征降维方法 27-31 3.2.1 域融合的类间类内离散矩阵 29 3.2.2 域间离散矩阵 29-31 3.2.2.1 监督式的域间离散矩阵 30 3.2.2.2 非监督式的域间离散矩阵 30 3.2.2.3 半监督式的域间离散矩阵 30-31 3.2.3 可迁移的判别式特征降维模型 31 3.2.4 行为分析 31 3.3 核化TDDR 31-33 3.4 实验部分 33-34 3.4.1 模拟数据上的实验 33-34 3.4.1.1 实验设置 33-34 3.4.1.2 实验结果 34 3.5 真实数据上的实验:基于域适应的用户迁移和时段迁移 34-37 3.5.3 实验设置 35 3.5.4 实验结果 35-37 3.6 本章结论 37-42 3.6.5 零训练的目标域 40 3.6.6 零测试的目标域 40-41 3.6.7 在线域适应学习 41 3.6.8 多个源域的情况 41-42 第四章 基于集成学习的动态域适应框架 42-57 4.1 基于稳健适应双视角和反向近邻策略的动态域适应 42-50 4.1.1 构建稳健适应双视角基本模型集 42-45 4.1.1.1 稳健视角的选择 44-45 4.1.1.2 适应视角的选择 45 4.1.2 基于反向近邻策略的动态加权策略 45-48 4.1.3 实验部分 48-50 4.1.3.1 实验设置 48 4.1.3.2 实验结果 48-50 4.2 基于模型友好分类器的动态域适应 50-55 4.2.1 构建基本模型集 50-52 4.2.1.1 样本维度 51 4.2.1.2 特征维度 51 4.2.1.3 模型维度 51-52 4.2.2 建立模型友好分类器 52 4.2.3 动态加权集成 52 4.2.4 实验 52-55 4.2.4.1 实验设置 52-54 4.2.4.2 实验结果 54-55 4.3 本章结论 55-57 第五章 总结和展望 57-59 5.1 本文方法总结 57-58 5.1.1 可迁移的判别式特征降维方法 57 5.1.2 基于稳健适应双视角和反向近邻策略的动态域适应 57-58 5.1.3 基于模型友好分类器的动态域适应 58 5.2 后续研究方向 58-59 参考文献 59-63 附录A 作者的其他工作:半监督的特征提取工作 63-69 A.1 半监督式的时域光滑特征提取 63-64 A.2 半监督式的重要性加权特征提取 64-66 A.3 实验部分 66-69 在学期间的研究成果、所获奖项 69-71 致谢 71-72
|
相似论文
- 基于支持向量机的基因表达数据降维方法的研究,TP181
- 流形学习中样本点稀疏问题的研究,TP391.41
- 学习表达式的映射机制研究,TP181
- 不同地理种群紫茎泽兰的生态适应性研究,S451
- 利用非局部相似性的图像超分辨率重建研究,TP391.41
- 基于UCA单次快拍实现相干信源估计,TN911.23
- 心电特征提取及分类方法研究,TN911.7
- 基于数据挖掘算法的蛋白质相互作用及其活性位点研究,TP311.13
- 基于基因表达谱的肿瘤分类方法研究,R730.2
- 基于集成学习的垃圾短信多级分类技术研究,TN929.53
- 集成学习算法研究,TP181
- 基于专家委员会的主动学习算法研究,TP181
- 集成学习及其应用研究,TP181
- 基于递归神经网络与集成算法的时间序列预测应用研究,TP183
- 基于粒子群优化算法的支持向量机集成学习方法研究,TP181
- 基于多任务的多层次选择性集成学习的研究,TP181
- 朴素贝叶斯分类器的集成学习方法研究,TP181
- 决策森林的子空间选择和集成优化,TP181
- 基于半监督分类的入侵检测系统模型研究,TP393.08
- 支持向量机算法设计及在高分辨雷达目标识别中的应用,TN957.52
- 基于集成代价敏感分类方法的客户流失预测研究,F274
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|