学位论文 > 优秀研究生学位论文题录展示

基于数据挖掘算法的蛋白质相互作用及其活性位点研究

作 者: 张亚楠
导 师: 沈红斌
学 校: 上海交通大学
专 业: 模式识别与智能系统
关键词: 蛋白相互作用 蛋白质活性位点 支持向量机 旋转森林 集成学习 特征选择与抽取 压缩采样 Bi-profile采样
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 93次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着高通量测序技术的不断发展,蛋白质序列的数目在呈指数形式增加,但是他们的功能和相互作用关系仍然是未知的。如何更快速有效地分析蛋白质特性及其相互作用,并对这些蛋白质的活性位点及其功能进行标注,已经成为迫在眉睫的问题。而另一方面,计算机技术的不断发展,为分子生物学研究提供了新的强大手段。既然蛋白质相互作用及其活性位点分析面临海量数据,有效地运用数据挖掘的方法来分析这些海量数据并揭示数据背后隐藏的自然规律,已经成为国际上蛋白组学及计算生物学研究的一个前沿课题。在过去几十年,提出了很多研究和分析蛋白质的数据挖掘及机器学习方法,而且这方面的研究一直受到持续的关注。本文从蛋白序列出发,通过开发更有效的数据挖掘方法来实现蛋白质相互作用及其活性位点的准确而快速的预测,并且开发出相应的独立算法包和在线网站。本文创新性主要体现在以下方面:提出了一种基于压缩采样算法的蛋白相互作用预测方法。该法首先从蛋白质序列中提取了有较强区分性的特征,然后考虑到获取的高维稀疏特征空间可能产生的负面影响如维数灾难,特征冗余等,使用压缩采样方法将高维特征空间转换为低维紧致特征空间,而且与通常采用的降维方法进行了对比,论证了压缩采样方法的高效性,并且可以保留尽可能多的有效信息。然后通过使用支持向量机旋转森林等方法在压缩后的特征空间构造分类器模型,进一步地论证了在压缩后特征空间中构造的分类器模型可以有效地避免过拟合现象(overfitting),同时也讨论了正负样本数据集不平衡情况下分类器模型的鲁棒性及不同的负样本集构造策略对结果的影响。提出了一种基于bi-profile采样的蛋白活性位点预测方法。该方法首先抽取了蛋白的序列保守性特征,并且针对序列保守性特征在训练模型中出现的过拟合现象,对特征进行了预处理。然后采用bi-profile采样方法有效抽取了序列氨基酸组成特征、蛋白质二级结构特征、序列氨基酸disorder特征和序列氨基酸亲水性特征。最后,研究了不同的特征组合、不同的分类器模型、集成方法在活性位点预测方面的性能,同时也研究了样本集不平衡情况下模型的鲁棒性。

全文目录


相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  10. 基于图像的路面破损识别,TP391.41
  11. 基于支持向量机的故障诊断方法研究,TP18
  12. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  13. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  14. 白斑综合征病毒(WSSV)重复单元ORF94的序列差异分析及囊膜蛋白的相互作用,S945.1
  15. 卷曲螺旋蛋白52与TRAF6及其家族成员相互作用对NF-κB通路的影响研究,R363
  16. IHHN、TS的流行病学调查和TSV结构蛋白VP1、VP3相互作用的研究,S945
  17. 基于车载3D加速传感器的路况监测研究,TP274
  18. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  19. 不匹配信道下耳语音说话人识别研究,TN912.34
  20. 基于文本挖掘的学者简历自动生成,TP391.1
  21. 基于特征选择的入侵检测研究,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com