学位论文 > 优秀研究生学位论文题录展示

蛋白质超家族模体特征的分析与超家族的识别

作 者: 马淑杰
导 师: 李前忠
学 校: 内蒙古大学
专 业: 理论物理
关键词: 蛋白质超家族 模体特征 模体相对位置分布 模体频数 单因素方差分析 最小离散增量
分类号: Q51
类 型: 硕士论文
年 份: 2009年
下 载: 65次
引 用: 1次
阅 读: 论文下载
 

内容摘要


模体是蛋白质进化过程中的保守区域,并且能够反映蛋白质超家族之间亲缘关系,它们通常对蛋白质的功能起重要作用。因此,蛋白质超家族的模体特征分析及蛋白质超家族的识别对研究蛋白质结构和功能具有重要意义。本文以蛋白质超家族中的模体和序列为研究对象,用生物统计学和生物数学中的方法,从蛋白质超家族中的模体功能特征分析及相对位置分布统计、信息特征提取和蛋白质超家族识别这三个方面进行了研究。主要研究工作概括如下:首先,从蛋白质结构分类数据库(SCOP)中选出16个具有代表性的蛋白质超家族,构建了序列一致性小于等于25%和40%的蛋白质超家族数据库。利用ScanProsite和MEME模体搜索工具,提取了所构建的数据库的序列模体及模体的位置信息和功能信息,并对其进行整合;进一步分析了超家族中模体的结构和功能特征,统计分析了模体相对于序列N端和C端的位置分布及模体出现的频次,结果发现:在含有一种或是多种类型模体的蛋白质超家族中,模体在序列中的位置分布均呈现一定的规律性。本文统计和分析的模体特征以及模体的位置保守性规律能为蛋白质超家族的识别和蛋白质相互作用网络的建立提供有力帮助。其次,用生物统计学中的单因素方差分析方法,对16个具有代表性的蛋白质超家族的氨基酸组分、物理化学性质分类特征及其组合特征等进行均值检验,提取出具有差异显著性的特征。此方法不仅有效地降低了特征向量的维数,而且为蛋白质超家族识别提供了新的参数。另外,还统计了已知功能的模体和基于统计意义发现的模体在各个超家族中出现的频数。本文定义的模体频数首次作为一种新的特征被用于蛋白质超家族的识别。最后,以下三种方法所选取的参数用于蛋白质超家族的识别:1.将数据库中超家族的20个氨基酸组分、400个二肽组分、亲疏水特征、物理化学特征以及这些特征的组合输入到最小离散增量算法中,对蛋白质超家族进行预测;2.以具有统计显著性的特征及其组合特征作为新参数模式进行了预测;3.将模体频数和具有差异显著性的特征参数模式结合,形成新的参数模式输入算法完成预测。对比以上三种方法,发观使用多参数组合信息较单参数信息所得预测精度最高。相对第一种参数选取方法,具有统计显著性特征的参数预测结果较好,并能有效降低特征向量的维数。第三种方法在选取了显著特征的前提下结合模体频数进行预测,其中以400+M为参数模式进行预测时结果最好,全α、全β、α/β和α+β蛋白质结构类中超家族Jackknife检验的总体预测精度依次是83.5%、87.1%、84.3%和83.1%。与前两种方法选取的参数进行预测的结果相比,总体预测精度提高了约10%。

全文目录


摘要  4-6
Abstract  6-8
目录  8-10
第一章 绪论  10-16
  1.1 研究课题的背景和意义  10-11
  1.2 国内外研究现状  11-13
  1.3 本文使用的蛋白质数据库和模体搜索工具  13-15
    1.3.1 蛋白质结构分类数据库  13
    1.3.2 蛋白质PROSITE数据库  13-14
    1.3.3 模体搜索工具  14-15
  1.4 论文的研究内容与安排  15-16
第二章 蛋白质超家族数据库的建立及模体特征的分析与统计  16-34
  2.1 建立蛋白质超家族数据库  16-17
  2.2 蛋白质超家族模体特征的分析  17-26
    2.2.1 全α类中蛋白质超家族模体特征的分析  17-20
    2.2.2 全β类中蛋白质超家族模体特征的分析  20-23
    2.2.3 α/β类中蛋白质超家族模体特征的分析  23-25
    2.2.4 α+β类中蛋白质超家族模体特征的分析  25-26
  2.3 模体位置保守性的统计  26-30
  2.4 模体频数的统计  30-34
第三章 特征提取及理论算法研究  34-45
  3.1 提取蛋白质超家族氨基酸组分及物理化学特征  34-38
  3.2 提取蛋白质超家族的模体频数  38-40
  3.3 最小离散增量算法及分类系统评价  40-45
    3.3.1 离散量和离散增量  40-42
    3.3.2 最小离散增量算法  42-43
    3.3.3 分类系统评价  43-45
第四章 基于蛋白质序列特征和模体频数的蛋白质超家族预测  45-57
  4.1 特征参数的构成  45-47
  4.2 基于不同特征参数的蛋白质超家族的预测结果和讨论  47-55
    4.2.1 基于组合参数的预测结果和讨论  47-49
    4.2.2 基于单因素方差分析方法提取特征的预测结果和讨论  49-52
    4.2.3 基于模体频数和组合参数特征的预测结果和讨论  52-55
  4.3 讨论不同参数对预测结果的影响  55-57
第五章 总结和展望  57-59
  5.1 全文总结  57-58
  5.2 工作展望  58-59
参考文献  59-65
致谢  65-66
攻读硕士学位期间发表的学术论文目录  66

相似论文

  1. 重庆自然工况住宅建筑室内热湿环境的建筑影响因素分析,TU831
  2. 高校教师教学行为及其影响因素研究,G645.1
  3. 非透析慢性肾脏病患者eGFR与动脉粥样硬化的相关性研究,R692
  4. 兰州市大气污染经济损失的支付意愿研究,F205;F126
  5. 集约化生产技术及其实验研究,TG335.1
  6. 企业知识型员工敬业度研究,F272.92
  7. 石家庄市居民幸福感测量研究,B844.2
  8. 基于旅游者行为理论的石家庄区域旅游开发研究,F592.7
  9. 我国利率期限结构及其影响因素的实证研究,F822.0
  10. 洪雅人工林赤腹松鼠的种群生态和其对林木危害的研究,S764.5
  11. 证券投资基金业绩与规模相关问题研究,F830.91
  12. 五种模式生物基因序列的识别研究,Q75
  13. 货币政策对国债收益率曲线影响的实证研究,F224
  14. 基于不同氨基酸分布的蛋白质超家族的识别,Q51
  15. 开放式基金规模与业绩表现的相关性研究及实证分析,F224
  16. 淮南市高中生心理卫生和吸烟行为状况及影响因素研究,G637.8
  17. 河北省高校教师工作满意度研究,G645.1
  18. 西安IT企业组织文化类型与员工工作满意度关系研究,F426.6
  19. 无原始观测值的随机样本均数的假设检验在SPSS软件中的实现,R195.1
  20. 转录因子结合位点和动物毒素的分析与预测,Q75

中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com