学位论文 > 优秀研究生学位论文题录展示

生物信息数据挖掘中的若干方法及其应用研究

作 者: 宋杰
导 师: 唐焕文
学 校: 大连理工大学
专 业: 运筹学与控制论
关键词: 生物信息学 数据挖掘 支持向量机 FDOD 蛋白质 DNA 图形表示
分类号: TP311.13
类 型: 博士论文
年 份: 2005年
下 载: 1051次
引 用: 3次
阅 读: 论文下载
 

内容摘要


许多生物(包括人在内)的基因组测序已经完成或接近完成,在揭示这些巨量数据所蕴涵的信息时,产生了一门新的交叉学科—生物信息学,通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。数据挖掘技术用于在数据库中发现潜在有用的知识,在生物信息学研究当中,正发挥着越来越重要的作用,而且取得了丰硕的成果。本文探讨若干生物信息数据挖掘的方法及其应用,主要工作如下: 1.用支持向量机FDOD两种方法对同源寡聚蛋白质进行了分类研究。Garian R.利用决策树方法从蛋白质一级结构出发对同源二聚体和同源非二聚体进行了分类,证实了蛋白质一级结构即氨基酸序列包含四级结构信息。本文用SVM和FDOD两种方法对同源二聚体和同源非二聚体进行分类,利用原始序列的子序列分布作为特征向量。采用和决策树方法同样的数据集,两种方法均大幅度提高了预测准确率。本文也对同源二聚体、同源三聚体、同源四聚体和同源六聚体进行了分类,取得了好的结果。 2.构造了基于线性规划的ν-SVM分类器。Scholkopf B等提出的基于二次规划的ν-支持向量机(ν-SVM)相比标准的SVM,其优势在于可以控制支持向量的数目和误差,但由于增加了模型的复杂性,限制了其应用。本文构造了一种基于线性规划的ν-SVM分类器,模型简单,参数ν具有明确的意义,同样可以控制支持向量的数目和误差,可以直接利用比较成熟的线性规划算法。数值试验表明,本文提出的基于线性规划的ν-SVM的训练速度要比基于二次规划的ν-SVM快得多,而分类效果两者相当。 3.提出了无参数鲁棒线性规划支持向量机分类的牛顿算法。Mangasarian O L最近提出的无参数鲁棒线性规划支持向量机克服了标准SVM需要选取正则化参数等一些缺点,其模型是一个线性规划。本文给出了这种线性规划的精确的最小2-范数解,在此基础上提出了快速的牛顿算法,此算法只需要一个线性方程组解算器。理论、数值实验以及在癌症基因表达数据分类上的应用都表明了用牛顿算法实现的无参数鲁棒线性规划支持向量机模型合理、简单,算法快速、容易实现。 4.用FDOD方法对DNA序列进行相似性分析。序列的比较是生物信息学中最常用的研究手段之一,其根本任务是发现序列之间的相似性和不相似性。序列比对是序列比较的主要方法,但有其不足之处,所以很多人寻求用其他方法来比较DNA序列。本文

全文目录


摘要  5-7
Abstract  7-11
1 绪论  11-31
  1.1 选题的背景和意义  11-13
  1.2 数据挖掘生物信息学  13-19
  1.3 支持向量机的理论、算法及应用  19-26
  1.4 FDOD函数及其应用  26-29
  1.5 本文主要工作  29-31
2 基于SVM和FDOD方法的同源寡聚蛋白质分类  31-41
  2.1 引言  31-32
  2.2 方法的描述  32-34
  2.3 对同源二聚体和同源非二聚体的分类  34-37
  2.4 同源寡聚蛋白质多类分类  37-39
  2.5 讨论  39-40
  2.6 小结  40-41
3 基于线性规划的ν-SVM分类器  41-49
  3.1 引言  41
  3.2 基于二次规划的ν-支持向量机分类器  41-43
  3.3 基于线性规划的ν-支持向量机分类器  43-45
  3.4 算法与数值实验  45-48
  3.5 小结  48-49
4 无参数鲁棒线性规划支持向量机分类的牛顿法  49-61
  4.1 引言  49-50
  4.2 无参数鲁棒线性规划支持向量机的模型  50-52
  4.3 模型的最小2-范数解  52-54
  4.4 牛顿算法  54-55
  4.5 数值实验  55-57
  4.6 算法在肿瘤分类中的应用  57-60
  4.7 小结  60-61
5 基于FDOD方法的DNA序列相似性分析  61-67
  5.1 引言  61-62
  5.2 数据  62
  5.3 方法的描述  62-63
  5.4 结果和讨论  63-66
  5.5 小结  66-67
6 一种新的DNA序列的2-D图形表示方法及其应用  67-77
  6.1 引言  67
  6.2 DNA序列的一种新的2-D图形表示  67-70
  6.3 DNA序列的数值刻划  70-74
  6.4 DNA序列的相似性分析  74-75
  6.5 小结  75-77
7 总结与展望  77-79
参考文献  79-88
攻读博士学位期间发表和完成学术论文情况  88-89
创新点摘要  89-90
致谢  90-91
附录 生物学基础知识  91-95
大连理工大学学位论文版权使用授权书  95

相似论文

  1. 多转录因子组合调控研究,Q78
  2. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  3. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  4. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  5. 基于蛋白质互作网络的疾病相关miRNA挖掘方法的研究,R341
  6. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  7. 音乐结构自动分析研究,TN912.3
  8. 基于三维重建的焊点质量分类方法研究,TP391.41
  9. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  10. 基于串核的蛋白质分类算法的研究与实现,TP301.6
  11. BioLab面向生物计算服务的网格系统,TP399-C8
  12. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  13. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  14. 基于图像的路面破损识别,TP391.41
  15. 基于支持向量机的故障诊断方法研究,TP18
  16. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  17. 南极冰藻GPx、GST和SAHH基因的克隆、定量分析及原核表达载体的构建,Q943.2
  18. 罗非鱼分离蛋白的制备及其性质研究,TS254.4
  19. 基于数据挖掘技术的保健品营销研究,F426.72
  20. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  21. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com