学位论文 > 优秀研究生学位论文题录展示

转录因子结合位点和动物毒素的分析与预测

作　者: 杨磊
导　师: 李前忠
学　校: 内蒙古大学
专　业: 生物物理
关键词: 转录因子结合位点动物毒素模体特征离散增量朴素贝叶斯分类器
分类号: Q75
类　型: 博士论文
年　份: 2010年
下　载: 84次
引　用: 0次
阅　读: 论文下载

内容摘要

转录因子结合位点的识别是阐明基因转录调控机制的重要环节,准确的转录因子结合位点的预测算法将有助于人们识别转录因子的目标基因,进而研究其在上游调控区中的位置对转录调控的影响。然而,目前存在的预测转录因子结合位点的算法所得结果的特异性普遍较低,因此有必要提出一种新的有效的理论预测算法。动物毒素能直接作用于药物作用靶点,这使得动物毒素成为研究药物靶点的重要工具。动物毒素还在离子通道的研究、药物发现和杀虫剂的合成方面有广泛的应用。因此,预测动物毒素就变得非常重要,有必要提出-种能准确鉴别动物毒素的理论算法。本文以转录因子结合位点、动物毒素、神经毒素、细胞毒素、突触前神经毒素和突触后神经毒素作为研究对象,利用位置关联性打分方程(positioncorrelation scoring function, PCSF)、离散增量(increment of diversity, ID)、支持向量机(Support Vector Machine, SVM)和朴素贝叶斯分类器(Naive Bayes Classifier,NB)四类算法对它们进行了预测研究。本文的研究工作如下：首先,从转录因子结合位点数据库JASPAR选出8种实验上证实的没有冗余的转录因子结合位点数据,结合位置保守性和伪计数,构建了位置关联方程,通过定义位置关联性打分方程的最佳阈值,使得打分方程在此最佳阈值下所得结果的假阳率较低。同时为了比较打分方程在转录因子结合位点方面的预测能力,本文将打分方程与MATCHTM中所使用的位置权重矩阵进行了比较,结果显示打分方程的预测能力优于位置权重矩阵的预测能力。其次,从动物毒素数据库ATDB下载了全部的动物毒素,用Saha和Raghava工作中提供的非毒素的蛋白质序列作为负集,利用PISCES软件对动物毒素和非毒素进行序列相似性比对,构建了序列相似小于25%、40%、60%、80%和90%的数据集合。分别选取20种氨基酸组分、400种二肽组分、6种亲疏水组分、36种二肽亲疏水组分作为离散增量算法的参数,对不同序列相似性的动物毒素数据集进行了预测。结果表明：离散增量算法在以二肽组分作为参数时预测结果最好；5种不同序列相似性的动物毒素数据集的预测结果随序列相似性变化较小。为了进一步提高动物毒素的预测精度,本文对4种不同的离散增量值进行组合并作为支持向量机的输入参数,对动物毒素进行了预测,结果显示：支持向量机的预测结果优于离散增量算法的预测结果。同时本文还对神经毒素和细胞毒素进行了预测。此外,为了将支持向量机和其它的预测算法进行比较,这里将支持向量机应用到Saha和Raghava构建的神经毒素的数据库上,预测结果显示：本文所使用的支持向量机的预测结果优于Saha和Raghava所提出的算法取得的预测结果。最后,本文从Swiss-Prot数据库上下载了突触前和突触后神经毒素的蛋白质序列,参照数据库给出的注释信息,统计了突触前和突触后神经毒素的二硫键类型及其二硫键数目的分布。从ATDB和Swiss-Prot数据库上下载了突触前和突触后神经毒素的蛋白质序列,分别构建了序列相似性小于80%的数据集1和数据集2。本文采用了5种方法选取参数：(1)：蛋白质序列的二肽参数；(2)：MRMR软件提取的50个二肽参数；(3):MEME搜索到的模体特征；(4):Prosite搜索到的模体特征；(5):Interpro搜索到的模体特征。本文还对这5种参数进行了组合,一共得到了12类参数,并将这12类参数作为离散增量和朴素贝叶斯分类器的参数,在Jackknife检验下,对数据集1和2进行预测。预测结果表明：(1)：增加模体参数的预测结果好于二肽参数时的预测结果；(2)：使用模体参数和50个二肽参数时,突触前神经毒素和突触后神经毒素的预测结果最好。

全文目录

摘要  4-7
Abstract  7-12
第一章绪论  12-18
  1.1 引言  12-13
  1.2 研究课题的背景和意义  13-14
  1.3 国内外研究现状和进展  14-16
    1.3.1 转录因子结合位点研究现状和进展  15-16
    1.3.2 动物毒素研究现状和进展  16
  1.4 数据库和软件介绍  16-17
  1.5 论文结构安排  17-18
第二章理论研究方法介绍  18-29
  2.1 位置权重矩阵算法  18-19
  2.2 离散增量算法  19-21
    2.2.1 离散量和离散增量  19-20
    2.2.2 最小离散增量算法  20-21
  2.3 支持向量机算法  21
  2.4 朴素贝叶斯分类器  21-23
    2.4.1 贝叶斯定理  21-22
    2.4.2 朴素贝叶斯分类器  22-23
    2.4.3 条件概率的计算  23
  2.5 特征选取算法  23-25
    2.5.1 氨基酸组成分信息  24
    2.5.2 氨基酸序列的二肽组分信息  24
    2.5.3 氨基酸亲疏水性分布信息  24-25
  2.6 基于互信息的特征参数选择  25-28
    2.6.1 最大相关性  26
    2.6.2 最小冗余性  26-27
    2.6.3 连续变量的MRMR算法  27-28
  2.7 分类系统评价  28-29
第三章转录因子结合位点的预测  29-36
  3.1 引言  29
  3.2 数据库的选取  29-31
    3.3.1 位置权重矩阵的构建  30-31
    3.3.2 位点保守性参量的定义  31
    3.3.3 位置关联性打分方程的定义  31
  3.4 结果和讨论  31-33
    3.4.1 位置关联性打分方程最佳阈值的确定  32
    3.4.2 最小假阴率阈值  32
    3.4.3 最小假阳率阈值  32
    3.4.4 最佳闽值  32-33
  3.5 Jackknife检验  33-34
  3.6 与其它方法的比较  34-35
  3.7 讨论  35-36
第四章基于离散增量和支持向量机的动物毒素的预测  36-46
  4.1 引言  36
  4.2 动物毒素的预测  36-41
    4.2.1 数据库的构建  36-37
    4.2.2 预测方法介绍  37-38
    4.2.3 结果与讨论  38-41
    4.2.4 结论  41
  4.3 神经毒素的预测  41-44
    4.3.1 神经毒素研究的意义  42
    4.3.2 数据库的选取  42
    4.3.3 结果和讨论  42-44
  4.4 与其它方法的比较  44-46
第五章突触前和突触后神经毒素的分析及预测  46-67
  5.1 引言  46
  5.2 数据集的获取及其来源分析  46-47
  5.3 突触前和突触后神经毒素二硫键的研究  47-51
    5.3.1 突触前和突触后神经毒素二硫键信息  47-49
    5.3.2 突触前神经毒素中磷脂酶A2金属离子结合位点研究  49-51
  5.4 ATDB数据库中突触前和突触后神经毒素的预测  51-62
    5.4.1 数据集的获取  52
    5.4.2 离散增量的预测结果  52-53
    5.4.3 序列模体特征的提取  53-59
    5.4.4 预测结果与讨论  59-62
  5.5 Swiss-Prot数据库中突触前和突触后神经毒素的预测  62-67
    5.5.1 数据集的获取  62
    5.5.2 特征参数的构成  62-64
    5.5.3 预测结果与讨论  64-67
第六章总结和展望  67-70
  6.1 工作总结  67-68
  6.2 工作展望  68-70
参考文献  70-85
附录  85-89
致谢  89-90
攻读博士学位期间发表和完成的论文目录  90

转录因子结合位点和动物毒素的分析与预测

内容摘要

全文目录

相似论文