学位论文 > 优秀研究生学位论文题录展示

基于主成分分析法的人类启动子识别

作 者: 李晓萌
导 师: 沈毅
学 校: 哈尔滨工业大学
专 业: 控制科学与工程
关键词: 启动子 DNA序列分析 CpG岛 主成分分析法 BP神经网络
分类号: R346
类 型: 硕士论文
年 份: 2008年
下 载: 70次
引 用: 1次
阅 读: 论文下载
 

内容摘要


本论文运用主成分分析法对人类启动子序列进行特征提取,并建立人类启动子识别模型对人类基因序列进行分析,获得较好实验结果。启动子是位于结构基因5’端转录起始点上游的一段DNA序列,它包含着一些可以被转录因子识别出的结合域。启动子就像“开关”,通过与转录因子的集合,决定了转录发生的时间和地点。由于启动子区域临近转录起始点,所以寻找基因的起始位置可以通过预测启动子区域来完成。启动子可以控制基因的“开”或者“关”,从而决定了多细胞组织中的细胞类型。不正确的基因调控可以导致很多疾病,例如癌症。因此,启动子本身也具有重大的研究意义。随着人类基因工程的发展,人类的基因序列已基本完成排序,但是仍有很多的编码基因以及他们的启动子区域被遗漏掉;其他物种的启动子区域识别并不像人类基因工程有大量的数据库支持。因此,建立一个精准的启动子识别模型是解决这些问题的关键。启动子的特征主要分为两种:信号特征和内容特征。其中主要的信号特征CpG岛, TATA框, CAAT框,启动因子等。DNA序列由四种核苷酸做成,他们分别是腺嘌呤(adenine,缩写为A),胞核嘧啶(cytosine,缩写为C),鸟嘌呤(guanine,缩写为G),胸腺嘧啶(thymine,缩写为T)。内容特征可以用n-mer来代表所有的特征。它是由n个核苷酸做成的序列,例如密码子(3-mer),五聚物(5-mer),六聚物(6-mer)等。现有的启动子识别系统将这些特征从训练集中提取出来嵌入模型中,已达到对启动子,非启动子分类的目的。用于进行特征提取选择方法中,常见的有位置权重矩阵,隐马尔可夫模型等,还有一些系统开发了自己的统计方法进行特征的选择。用于建模分类的方法有位置权重矩阵,人工神经网络,支持向量机,相关向量机等。主成分分析法是进行多变量分析一种有效的方法,其主要思想是原变量矩阵投影到新的空间,获得一组新的变量。通过对原变量空间变换,只有能够代表原空间绝大部分变量主要成分被保留下来,形成新的空间,从而达到降维的目的。DNA序列本身包含大量信息,而高精度、高效率的分类器需要最有效的特征。内容特征在启动子识别中占很重要的地位,在整个基因组范围内的启动子区域识别有更普遍的模式。几乎所有信号特征也可以用内容特征来表达。本实验用主成分分析法从训练集中选取可以有效区分启动子序列和非启动子序列的内容特征。为了找到高区分率的内容特征组合,首先分别从训练集提取3-mer, 4-mer和5-mer的出现频率矩阵。训练集由5000条人类启动子序列以及5000条人类外显子序列组成。启动子序列来源于转录起始点数据库(data base of transcription start sites, DBTSS),外显子序列来源于外显子-内含子数据库(exon-intron data base, EID)。通过排列组合,归一化,3个频率矩阵,可以组成3-mer,4-mer,5-mer,3-mer和4-mer,4-mer和5-mer,3-mer和5-mer,以及3-mer、4-mer和5-mer共7个新的矩阵。将启动子与外显子的7个矩阵对应组合起来,在由主成分分析法进行分析,从每组矩阵选取3个主成分,得到7个新的3维向量空间。最后,将原启动子-外显子组合矩阵投影到对应的向量空间上,准备通过神经网络训练以及测试,检验其分类有效性。序列的测验与检验由一个3层BP神经网络实现。3层的传递函数分别为“tan-sigmoid”,“log-sigmoid”,“tan-sigmoid”.训练步数设为10000,分类阀值设为0.5。为了进行比较,我们采用两个评价指标:灵敏度,特异性。测试集由区别于训练集的5000条人类启动子序列以及5000条人类外显子序列组成。最终,由3-mer和5-mer组合特征矩阵训练的网络得到了最佳的性能指标:灵敏度为0.7340,特异性为0.6500。由此,本实验中的人类启动子识别网络将采用3-mer和5-mer矩阵作为分类特征。另外作为信号特征的CpG岛将结合选定的内容特征共同运用于识别系统中。我们提出两个搭建人类启动子识别网络的两种方案(图1,图2)。方案1与方案2的区别在于对CpG岛信号特征的利用上。方案2首先将输入序列分为CpG岛相关序列与CpG岛非相关序列,再将已分类的序列输入到分类器中。方案1将序列同时输入到CpG岛相关性判断模块与分类器中,再将CpG到相关性判断结果与分类器输出结果相结合得出最终分类结果。为了对长序列进行分析,网络前端设置了一个窗口。窗口宽度为300bp,移动步距为20bp。在方案1中,每一条从窗口输出的短序列都会从CpG岛模块(CpG islands module)中得到一个分数,同时,特征提取模块(feature generation module)从该序列中提取3-mer和5-mer的特征向量。PCA模块将3-mer和5-mer特征向量投影到在训练过程中运用PCA算法创建的新的特征空间中,从而得到新的特征向量。新向量随后被送到三个分类器:启动子与外显子分类器(Promoter vs. Exon classifier),启动子与内含子分类器(Promoter vs. Intron),启动子与3端非转录序列(3’UTR)分类器(Promoter vs. 3’UTR classifier)。数据处理模块(data processing module)结合CpG岛模块和三个分类器输出结果做出预测。方案2中,长度为300bp的序列在CpG岛模块中分类, CpG岛相关序和非相关序列分别通过与方案1种相同的特征提取模块和PCA模块,随后被送到CpG岛相关序列分类器组和CpG岛非相关序列分类器组,两组分类结果通过各自数据处理模块得出结果。在方案1上进行网络参数优化。分类器中优化的网络参数通过三组比较实验得出:首先固定输入向量的维数(3)和神经网络的层数(3),得出各层间优化传递函数―tan-sigmoid‖,―log-sigmoid‖,―tan-sigmoid‖,以及隐藏层神经元数(20)。第二步,固定神经网络的层数和各层间的优化传递函数,得出优化的输入向量维数为6,同时确定采用6个由主成分分析法选取的主要成分。第三步,在前两步的基础上得出优化的神经网络层数为4,即两个隐藏层。由于两个方案中分模块的内部网络结构相同,故可将相同的优化的网络参数运用到两个方案的分类器中。方案2分类器训练有别于方案1,首先将启动子和非启动子序列都分为CpG岛相关序列和CpG岛不相关序列,再对应到两组分类器中进行训练。最后建立两个测试集对两个方案分别测试。测试集1由有标注的5000条人类启动子序列和6000条非启动子序列组成,重点测试网络分类能力。启动子序列来源于转录起始点数据库和真核生物启动子序列数据库(eukaryotic promoter database, EPD),2000条外显子序列和2000条内含子序列来源于外显子-内含子数据库,2000条3端非转录序列来源于非转录序列数据库(Untranslated sequence database, UTRdb)。启动子测试集2由3条人类DNA序列组成,重点测试网络预测能力。最终,方案1的性能指标在两组测试中均领先,故被选定为正式方案,系统命定为HPR-PCA。为了测评HPR-PCA的性能指标,我们选用三个广受好评的启动子识别系统DrangonGSF,Eponine,FirstEF进行比较。测试基于三组不同的数据。测试集1由来自于Genebank的四条人类基因作组成,总长度为0.95Mbp,包含14个已知转录起始点。比较中,HPR-PCA以灵敏度0.6429,特异性0.4500的性能指标位居四个系统中首位。测试集2也采用网络空开资源提供的完整的人类染色体22序列,长度为34.75Mbp,包含393已标注的转录起始点。HPR-PCA综合指标大幅领先于其他系统,灵敏度和特异性分别高达0.7659和0.8244。测试集3由7条提取自人类染色体22的基因序列,其标注不同于测试集2。序列的总长度为11.56Mbp,包含94个转录起始点。在测试中,HPR-PCA再次以最高的综合性能领先灵敏度和特异性为别为0.5319,0.7246。通过多组数据比较,HPR-PCA在基因组范围启动子预测显示出其优势。不同于其它三个系统,HPR-PCA采用主成分分析法将DNA序列中提取的高维特征组降维,这种特征选择方法成功的运用于识别网络中,得出较好的实验结果,在人类基因组范围内的识别中表现突出。HPR-PCA利用了启动子的信号和内容特征对DNA序列进行分类,但是忽略了启动子信号的位置特征。然而,新兴的启动子识别方法提出了对启动子结构特征进行研究。例如,挠性(flexibility),刚性(rigidity)和柔性(bendability)特征均是从三维空间提取得特征。这些结构特征区别于内容特征,可以为以建立的启动子识别系统提供重要的补充信息。将结构特征运用于启动子识别系统中将作为未来工作的重点。

全文目录


摘要  3-7
Abstract  7-10
Chapter 1 Introduction  10-15
  1.1 Transcription and Eukaryotic Promoter  10-11
  1.2 Significance of Promoter Prediction  11-12
  1.3 Outline of this Thesis  12-15
Chapter 2 Literature Review  15-28
  2.1 Important Promoter Features  15-19
    2.1.1 Sequence Signal Features  15-17
    2.1.2 Sequence Context Features  17
    2.1.3 Summary of Features Used in Existing Promoter Prediction Models  17-19
  2.2 Review of Promoter Feature Extraction and Selection Algorithms  19-25
    2.2.1 Sequence Feature Extraction Algorithms  20-23
    2.2.2 Sequence Feature Selection Algorithms  23-25
  2.3 Review of Modeling and Classification Methodology.  25-28
    2.3.1 Introduction of modeling and classification methodology  25-26
    2.3.2 Summary of modeling and classification methodology used in existing promoter prediction models  26-28
Chapter 3 Application of Principal Component Analysis and Artificial Neural Network to Promoter Feature Selection  28-45
  3.1 Principal Component Analysis.  28-33
    3.1.1 Theoretical background  28-32
    3.1.2 Bioinformatics applications of PCA  32-33
  3.2 Artificial Neural Network and Training Method  33-37
    3.2.1 Artificial Neural Network and Backpropagation Learning Method  33-37
    3.2.2 Holdout Validation Training Method.  37
  3.3 Features Selection Based on PCA.  37-45
    3.3.1 Feature Matrix Generation  38-40
    3.3.2 Feature Selection Based on PCA  40-43
    3.3.3 Conclusion  43-45
Chapter 4 Human Promoter Recognition Network  45-59
  4.1 Overview of Human Promoter Prediction Network  45-47
  4.2 Implementations of Sub-Modules  47-56
    4.2.1 Feature Vector Creation and PCA Modules  47-49
    4.2.2 Classifiers for Promoter and Non-Promoter Sequences  49-55
    4.2.3 CpG islands module  55-56
    4.2.4 Data Processing and Prediction of TSS  56
  4.3 Performance Evaluation of Scheme I and Scheme II  56-59
Chapter 5 Results and Discussion  59-65
  5.1 Test Results and Discussion  59-64
  5.2 Future Work  64-65
Conclusion  65-67
参考文献  67-72
攻读学位期间发表的学术论文  72-74
致谢  74-75
个人简历  75

相似论文

  1. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  2. 机械臂视觉伺服系统的研究,TP242.6
  3. 水稻茎叶特异表达基因启动子的筛选及分析,S511
  4. 市级旅游用地规划环境影响评价研究,X820.3
  5. 珠三角地区高性能混凝土配合比智能化系统,TU528
  6. 大学生综合素质测评研究,G645.5
  7. 基于并行算法的模糊综合评价模型的设计与应用,TP18
  8. 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
  9. 猪BMP7基因启动子多态性及其与繁殖性状关联性分析,S828
  10. 水稻纹枯病菌三磷酸甘油醛脱氢酶基因的克隆及其遗传转化体系的构建,S435.111.42
  11. Pib结构基因在不同启动子驱动下的稻瘟病抗性,S435.111.41
  12. 水稻Pib启动子中乙烯和茉莉酸响应元件的转基因分析,S511
  13. J亚型禽白血病病毒抗体检测方法的建立及LTR体外启动活性分析,S858.31
  14. 高速公路拆迁民众生存系统评价研究,D523
  15. 棉铃虫细胞色素P450基因CYP9A17v2启动子活性分析,S435.622
  16. Pib基因启动子3’端缺失体的暗诱导特性分析,S511
  17. 藤稔葡萄花发育相关基因的克隆及表达分析,S663.1
  18. 苹果Flowering locus T (FT)基因及其启动子的克隆及表达分析,S661.1
  19. 镉胁迫诱导拟南芥MLH1基因启动子甲基化变化的分子诊断,X173
  20. 棉花和番茄P-ATPases基因的克隆及功能的初步分析,S562
  21. 蜂毒肽基因的原核重组表达及其在Hela细胞中的靶向转录研究,R346

中图分类: > 医药、卫生 > 基础医学 > 人体生物化学、分子生物学
© 2012 www.xueweilunwen.com