学位论文 > 优秀研究生学位论文题录展示
基于图和网络的学习算法及其在系统生物学中的一些应用
作 者: 夏铮
导 师: 孙优贤
学 校: 浙江大学
专 业: 控制科学与工程
关键词: 系统生物学 半监督学习 图的拉普拉斯矩阵 核方法 药物-蛋白相互作用网络 蛋白质-蛋白质相互作用网络 基因功能模块 生物图像配准
分类号: TP391.41
类 型: 博士论文
年 份: 2009年
下 载: 403次
引 用: 0次
阅 读: 论文下载
内容摘要
随着社会和科学技术的不断发展,人们正在积累越来越多的各个层次的数据和信息,但是这并没有从根本上解决许多具有挑战性的问题。最典型的例子是,二十世纪分子生物学的迅速发展只是获得了细胞各个组分的知识,而并没有攻克很多复杂的疾病,比如癌症等。这意味着我们需要从系统的水平整合不同的知识和数据,研究它们内部的相互关系和作用,从而才能最终掌握复杂系统的规律,对它们进行控制和优化。同时由于海量数据的复杂性,我们需要机器学习和数据挖掘技术对信息进行自动加工。图和网络是表达复杂系统内部不同尺度、不同组分之间相互作用和关联的最直观的方式。因此,我们迫切需要结合实际应用领域,例如系统生物学,发展基于图和网络的学习算法对系统进行研究。本文针对基于图和网络的学习算法,以实际分类问题和系统生物学中的一些应用为驱动背景,以图论、统计、优化方法为基本工具,以数据整合为核心,以结点分类、链接预测、子网发现和图匹配问题为对象和目标,对基于图和网络的学习算法进行了深入的研究。本文的主要研究内容和创新点包括以下几个方面:1.本文综述了基于图和网络的学习算法,介绍了系统生物学的定义和当前的发展,阐述了图和网络在当前系统生物学中的核心作用,指出了图和网络的方法在以系统生物学为代表的实际应用中的巨大潜力。2.考虑基于链接的半监督结点分类问题,以图的拉普拉斯矩阵的谱变换来构造半监督核为目标,本文提出了一种基于图的同时学习最优非参数谱变换和构建分类器的半监督学习方法。该算法的基本思想是以最大化特征空间的Fisher判别率作为谱变换图核学习和分类器构建的共同准则,并转化为一个半定规划的凸优化问题来求解。与利用核配准进行半监督核学习的算法比较,该算法不需要再进行分类器训练,因为分类器的学习和最优核的构造是同时完成的。在7个分类数据集上,该算法性能均优于或相当于当前基于核校准准则的半监督学习算法。3.考虑药物-蛋白相互作用网络的预测问题,本文以最大化集成网络中结点属性、链接信息以及未标记样本的信息为目标,提出应用流形正则化的半监督学习算法,并利用核方法整合药物化学分子结构信息、蛋白质序列信息和药物-蛋白网络拓扑结构信息来对未知的药物-蛋白相互作用进行预测,从而提高了预测的精度。用我们提出的方法预测的一些药物-蛋白相互作用已经被最新的药物数据库证实。4.从系统生物学的角度出发,考虑把蛋白质-DNA和蛋白质-蛋白质相互作用网络整合到基因微阵列数据的分析中。为了辨识与疾病相关的基因功能模块,本文提出了一个新的基于相互作用网络的正则化项来鼓励系数的绝对值在网络上的平滑,结合(?)1范数的稀疏特性,得到一种基于图的弹性网算法,并从理论上分析了新的正则化项的数学特性,开发了一种新的求解算法,该算法具有全路径计算的优点。理论分析和仿真结果表明,基于图的弹性网算法能得到更小的预测误差。最后,将我们的算法应用到一个阿尔茨海默病的微阵列基因表达数据集上,辨识出了四个与阿尔茨海默病相关的基因功能模块。5.为了融合不同尺度和模态的信息,考虑把反映分子功能信息的三维荧光分子断层扫描(FMT)图像和反映解剖结构的CT图像进行配准,从而在一幅图像上同时表达多方面的信息。但是直接配准最大直径只有几个毫米的肿瘤的三维FMT图像和体长有近十厘米的整个小鼠的三维CT图像是非常困难的。由于我们可以得到二维平面图像跟FMT图像的坐标关系。因此本文提出一个新的思路,即先对FMT成像过程中得到的二维平面图像与三维的CT图像进行预配准,预配准的结果再作为下一步FMT和CT三维配准的初始值,这样就减小了最终三维配准时两个对象的大小差异所导致的配准难度。在配准过程中,对两个对象分别进行分割得到点集,将问题转化为点集图匹配,使配准完全不同模态的图像成为可能。对于匹配的优化算法,结合全局和局部优化的思想,提出了两种优化方法:结合最小二乘进行局部搜索的序贯蒙特卡罗采样算法;结合差分进化和把最小二乘作为另一种搜索方式的单纯形法。大量的仿真实验结果验证了结合全局搜索和局部搜索优化算法在减少迭代次数和寻优能力上的优越性。最后,在两个实际小鼠数据上的运行结果显示这种预配准的方法为下一步三维FMT和CT图像的配准提供了很好的初始值。
|
全文目录
致谢 5-6 摘要 6-8 Abstract 8-16 1 绪论 16-38 本章摘要 16 1.1 基于图和网络的学习算法 16-23 1.1.1 结合链接信息的结点分类 17-19 1.1.2 链接预测 19-20 1.1.3 子网发现和图分类 20-22 1.1.4 图匹配 22-23 1.2 当前系统生物学的发展 23-30 1.2.1 系统生物学的定义 24-25 1.2.2 系统生物学的基础-信息 25-26 1.2.3 系统生物学的灵魂-整合 26-28 1.2.4 系统生物学的手段-建模和仿真 28-30 1.3 图和网络的观点在系统生物学中的应用 30-33 1.3.1 图和网络在系统生物学应用中的现状 30-33 1.4 本文立题依据及主要内容 33-38 1.4.1 研究动机和思路 33-34 1.4.2 全文组织结构 34-38 2 预备知识 38-52 本章摘要 38 2.1 图论及其基础知识 38-40 2.1.1 基本概念 38-39 2.1.2 拉普拉斯矩阵 39-40 2.2 半监督学习(Semi-supervised Learning) 40-41 2.3 核方法相关知识 41-43 2.3.1 非线性映射和特征空间 41 2.3.2 核技巧(Kernel Trick) 41-42 2.3.3 Mercer定理 42 2.3.4 定义:再生核希尔伯特空间 42-43 2.3.5 核函数性质 43 2.3.6 表现定理(Representer Theorem) 43 2.4 半定规划基础知识 43-44 2.4.1 半定规划定义 43-44 2.4.2 Schur补引理 44 2.5 (?)_1范数稀疏性 44-47 2.5.1 LASSO 45-46 2.5.2 从几何角度理解(?)_1范数的稀疏性 46 2.5.3 (?)_1范数最小化的优化方法 46-47 2.6 光学分子成像 47-52 2.6.1 近红外光成像 47-48 2.6.2 荧光分子断层扫描 48-52 3 基于谱变换图核的半监督核Fisher判别分析法 52-64 本章摘要 52 3.1 引言 52-53 3.2 问题描述 53-55 3.3 核Fisher判别分析法 55-57 3.3.1 基本概念 55-57 3.3.2 核技巧(Kernel Trick) 57 3.4 基于半定规划的谱变换 57-60 3.4.1 半监督KFDA的一般凸公式 57-59 3.4.2 半定规划求解谱变换 59-60 3.5 实验结果 60-61 3.6 本章小结 61-64 4 基于半监督学习的药物-蛋白相互作用网络预测 64-82 本章摘要 64 4.1 引言 64-65 4.2 数据描述 65-67 4.3 算法描述 67-71 4.3.1 整合的权重属性法(Combining weighted profile) 67-68 4.3.2 LapRLS和NetLapRLS用于药物-蛋白相互作用预测 68-71 4.4 实验结果 71-78 4.4.1 交叉验证下的结果分析 71-72 4.4.2 最终预测结果分析 72-78 4.5 本章小结 78-82 5 基于图的弹性网算法用于基因数据分析中的参数选择和模块辨识 82-100 本章摘要 82 5.1 引言 82-84 5.2 问题描述 84-87 5.3 优化算法 87-90 5.3.1 LARS(Least Angle Regression) 87 5.3.2 提出新的全路径算法解决GENet 87-90 5.4 GENet群效应特性的理论分析 90-92 5.5 仿真结果 92-94 5.6 实际数据分析 94-98 5.7 本章小结 98-100 6 三维CT图像和FMT(荧光分子断层)图像的配准研究 100-122 本章摘要 100 6.1 引言 100-102 6.2 问题描述 102-105 6.3 序贯蒙特卡罗优化算法 105-109 6.3.1 浓缩法(条件密度传播) 105-106 6.3.2 用于配准的动态模型 106-108 6.3.3 用于配准的观测模型 108 6.3.4 仿真实验结果 108-109 6.4 结合差分进化和改进的单纯形法的优化算法 109-120 6.4.1 算法过程 109-111 6.4.2 算法小结 111-112 6.4.3 仿真数据 112-120 6.5 本章小结 120-122 7 总结和展望 122-126 7.1 全文总结 122-124 7.2 研究展望 124-125 7.3 本章小结 125-126 参考文献 126-136 附录A 攻博期间完成的论文及参与的项目 136-138 A.1 攻博期间完成的论文 136-138 A.2 参与的科研项目 138
|
相似论文
- 基于核方法的高光谱图像异常检测算法研究,TP751
- 脑瘤的基因网络建模与分析,R739.4
- 基于半监督模糊聚类的入侵防御技术研究,TP393.08
- 李群深层结构学习算法研究,TP181
- 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
- 指纹图像分割方法评价与半监督学习在指纹图像分割中的应用研究,TP391.41
- 核自适应滤波算法的研究,TN713
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 基于图像特征的空间目标识别方法研究,TP391.41
- 代谢网络社团结构研究,Q251
- 基于半监督哈希算法的图像检索方法研究,TP391.41
- 基于半监督学习的时间序列分类研究与实现,TP181
- 大规模蛋白质相互作用网络复合物挖掘算法研究,Q51
- 基于半监督多示例的径向基函数网络模型及学习算法研究,O242.1
- 基于半监督学习的工况识别方法研究及铜闪速熔炼过程中的应用,TF811
- 数据挖掘在研究生调剂中的应用研究,TP311.13
- 刺激下拟南芥基因逻辑网络构建与分析,Q943
- 刺激下拟南芥基因相关网络构建与分析,Q943.2
- 代谢网络及路径(pathway)的研究和应用,Q493
- 半监督学习中协同训练与多视图方法的比较及改进,TP18
- 支持向量机的核方法及其多核聚类算法的研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|