学位论文 > 优秀研究生学位论文题录展示

若干有机小分子生物活性和毒性的识别及预测

作 者: 陆瑾
导 师: 陆文聪
学 校: 上海大学
专 业: 材料学
关键词: 生物信息学 机器学习 集成学习算法 支持向量机(SVM)  小分子 代谢途径 官能团组成 多分类器投票 麻醉药毒性 定量结构-性能关系
分类号: Q74
类 型: 博士论文
年 份: 2012年
下 载: 14次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近些年来,伴随着人类等生物物种基因组学、信息技术和生物检测手段的不断发展,生物信息资源日渐丰富,生物信息学作为新兴的交叉学科应运而生。理论研究者可以在实验获取的数据基础上进行加工、存储等,利用机器学习方法进行分析,从中找出隐含的规律和模式,从而进一步加深对事物的认识,揭示数据所蕴含的生物学意义。本文就是采用这一研究方法着手若干有机小分子生物活性和毒性的识别及预测。本文的主体工作分为三个部分:第一部分:基于集成学习算法的小分子生物功能预测如何准确并有效地确定小分子生物功能是一个挑战,小分子生物功能预报研究具有重要意义。本部分内容中我们运用集成学习算法来解决这个问题。我们尝试用AdaBoost-C4.5算法建模,用官能团组成来实现小分子编码,完成小分子代谢途径类型预测等研究。小分子生物功能的研究可以帮助我们认识疾病机理、理解生命现象。本部分研究所建立的模型显示出较好的预测性能,其交叉验证预报准确率为73.71%,对独立测试集的预报准确率达73.8%。根据建立的预测模型,我们开发了相应的小分子代谢途径类型预报的在线服务系统,有关WEB界面见http://chemdata.shu.edu.cn/pathway/。第二部分:基于集成学习算法的代谢过程中和小分子相互作用的预测酶和小分子之间相互作用的信息对于我们理解酶和小分子的新陈代谢作用和其它生物过程非常重要。本文中我们应用AdaBoost,Bagging and KNN等不同的分类器组合,通过多分类器投票系统来预测酶和小分子在代谢过程中的相互作用。研究表明:多分类器投票系统的预报结果优于任何单个分类器预报的结果。我们得到的训练数据集和独立测试集的预报准确率分别为82.8%和84.8%。其中对于酶和小分子相互作用对(即正样本)独立测试集的预报准确率为75.5%,比之前文献报道的准确率高出4个百分点。本工作提出的预报方法的相关内容已建立在WEB服务器上,地址为http://chemdata.shu.edu.cn/small-enz/。第三部分:基于支持向量机回归的麻醉药毒性构效关系研究本部分工作中,我们采用支持向量机回归方法、多元线性回归、偏最小二乘法及逆传播人工神经网络研究了39个麻醉药毒性的定量构效关系。从若干量子化学计算参数中筛选出能有效建模的分子描述符。所得SVR,MLR,PLS,BP-ANN模型的均方根差分别为0.283,0.385,0.392和0.466。结果表明,所建支持向量机回归模型的预报精度高于MLR、PLS和BP-ANN方法所得的结果。支持向量机方法有望成为结构毒性关系研究领域中有用的化学计量学工具。

全文目录


摘要  8-10
ABSTRACT  10-13
目录  13-16
第一章 前言  16-22
  1.1 生物信息学简介  16-17
  1.2 机器学习算法在蛋白质组研究中的应用  17-18
  1.3 构效关系简介  18-20
  1.4 在线Web 预报系统简介  20-21
  1.5 小结  21-22
第二章 机器学习算法  22-51
  2.1 基本学习算法  22-31
    2.1.1 多元线性回归  22-23
    2.1.2 模式识别方法  23-25
      2.1.2.1 偏最小二乘法  23-25
      2.1.2.2 最近邻算法  25
    2.1.3 决策树算法  25-30
      2.1.3.1 C4.5  26-28
      2.1.3.2 随机决策树算法  28-29
      2.1.3.3 随机森林算法  29-30
    2.1.4 人工神经网络  30-31
  2.2 支持向量机算法  31-43
    2.2.1 统计学习理论简介  32-34
    2.2.2 支持向量分类算法  34-39
      2.2.2.1 线性可分情形  34-36
      2.2.2.2 非线性可分情形  36-37
      2.2.2.3 支持向量机的核函数  37-39
    2.2.3 支持向量回归方法  39-41
      2.2.3.1 线性回归情形  39-40
      2.2.3.2 非线性回归情形  40-41
    2.2.4 支持向量机分类与回归算法的实现  41-42
    2.2.5 应用前景  42-43
  2.3 集成学习算法  43-47
    2.3.1 投票算法Voting  43-44
    2.3.2 Boosting 算法  44-45
    2.3.3 AdaBoost 算法  45-46
    2.3.4 Bagging 算法  46-47
  2.4 特征筛选  47-50
    2.4.1 mRMR 变量筛选方法  47-48
    2.4.2 CFS 变量筛选方法  48-50
  2.5 小结  50-51
第三章 基于集成学习算法的小分子生物功能预测  51-66
  3.1 前言  51-52
  3.2 材料及方法  52-56
    3.2.1 数据集  52-53
    3.2.2 化合物编码  53-56
  3.3 结果与讨论  56-63
    3.3.1 模型的优化  56-60
    3.3.2 预报模型评估  60-61
    3.3.3 AdaBoost 算法与其它算法预测性能比较  61-63
  3.4 Web 服务开发  63-65
  3.5 小结  65-66
第四章 基于集成学习算法的代谢过程中和小分子相互作用的预测  66-76
  4.1 前言  66-67
  4.2 方法  67-68
    4.2.1 多分类器投票  67
    4.2.2 分类器投票系统的建立  67-68
  4.3 数据集和编码方法  68-72
    4.3.1 数据集  68
    4.3.2 编码方法  68-69
    4.3.3 小分子的表征  69
    4.3.4 酶的表征  69-72
  4.4 结果和讨论  72-75
    4.4.1 预报准确率  72
    4.4.2 投票系统的选择  72-73
    4.4.3 单个分类器和投票系统的比较  73-75
    4.4.4 投票系统分析  75
  4.5 小结  75-76
第五章 基于支持向量机回归的麻醉药毒性构效关系研究  76-88
  5.1 前言  76-77
  5.2 材料及方法  77-79
    5.2.1 数据集  77-78
    5.2.2 计算机硬件和软件  78-79
    5.2.3 量子化学描述符  79
  5.3 结果与讨论  79-87
    5.3.1 描述符选择  79-81
    5.3.2 SVR 模型参数选择  81-84
    5.3.3 SVR 模型  84-85
    5.3.4 SVR 模型验证  85
    5.3.5 SVR 模型的留一法预报结果  85-86
    5.3.6 与其他数据挖掘方法比较  86-87
  5.4 小结  87-88
第六章 结论与展望  88-91
  6.1 结论  88-89
  6.2 展望  89-91
参考文献  91-105
攻读博士学位期间发表的论文和专利  105-106
致谢  106

相似论文

  1. 罗丹明B和罗丹明6G的印迹聚合物制备及性能,O631.3
  2. 环氧分子在碳纤维表面相互作用的分子模拟研究,TB332
  3. BioLab面向生物计算服务的网格系统,TP399-C8
  4. 海红果醋加工技术的研究,TS264.22
  5. 拟南芥胱硫醚-γ-合成酶(D-AtCGS)基因在大肠杆菌中的表达及抗血清制备,Q943.2
  6. 红肉脐橙和‘国庆四号’温州蜜柑中CHS和CHI基因的克隆与表达及其对类黄酮积累的调控机制,S666.4
  7. 扩展青霉TS414脂肪酶在毕赤酵母的表达、纯化及其催化外消旋萘普生酯化拆分的研究,Q814
  8. 南极冰藻GPx、GST和SAHH基因的克隆、定量分析及原核表达载体的构建,Q943.2
  9. 米曲霉FS-1脂肪酶发酵优化、分离纯化与酶学特性的研究,TQ925.6
  10. 抗吡虫啉—甲基对硫磷双特异性单克隆抗体的研究,S482.2
  11. 大豆疫霉RXLR效应分子靶标的筛选,S435.651
  12. 海盐苦卤对几种植物病原真菌的抑制及应用的初步研究,S482.2
  13. 几种天然产物分子印迹聚合物的制备、评价和应用,R284.1
  14. 天然迈克尔反应受体分子的快速发现及活性研究,R284
  15. Pin1在骨肉瘤细胞中的表达及对细胞周期的影响,R738.1
  16. CRZ-1对小麦盐胁迫生长、叶绿素酶活性抑制及大田产量的影响,S512.1
  17. 磷酸化介导的UGT1A3代谢活性差异的初步研究,R346
  18. 辣椒碱/β-环糊精体系溶解与渗透的相关性研究,R943
  19. 凡纳滨对虾虾头内源性蛋白酶分离纯化与酶学特性研究,S985.21
  20. 易错PCR定向进化扩展青霉FS1884脂肪酶,Q78
  21. 植物纤维磨浆中酶/化学品复合的作用,TS713

中图分类: > 生物科学 > 分子生物学 > 生物小分子的结构和功能
© 2012 www.xueweilunwen.com