学位论文 > 优秀研究生学位论文题录展示
基于基因表达谱的肿瘤分类特征基因选择研究
作 者: 段艳华
导 师: 李建更
学 校: 北京工业大学
专 业: 模式识别与智能系统
关键词: 特征基因选取 基因表达谱 肿瘤分类 生物信息学
分类号: R73-3
类 型: 硕士论文
年 份: 2008年
下 载: 223次
引 用: 3次
阅 读: 论文下载
内容摘要
基因芯片技术因其能同时快速测量成千上万条基因的表达水平,被广泛地应用于基因组层次上研究细胞的基因表达模式。随着微阵列技术广泛运用到肿瘤疾病研究中,产生了大量维数高、样本少的肿瘤基因表达谱数据。如何从海量的基因表达谱数据中发现和提取少量的具有分类识别能力且最小的冗余度的特征基因,挖掘出有用的信息和知识,更加全面的认识肿瘤的基因本质、获得对“肿瘤-基因”间关系的真实反映,对推进肿瘤学的基础研究和肿瘤的临床诊断与治疗,进一步研究肿瘤、发现肿瘤的致病机理是至关重要的作用。本文的主要研究是针对肿瘤基因表达谱的肿瘤分类特征基因选择,取得了如下的成果:1.根据肿瘤微阵列数据的特点,提出了一种基于相关性改进的SVM-RFE算法。算法引入相关性的评价基因的相互之间的关系,在寻求数据最小冗余的同时,考虑了如何提高特征选择的速度。在白血病微阵列数据集实验中证明,新方法在没有降低分类精度的情况下大大改进了标准SVM-RFE算法效率。2.由于传统了K-均值算法需要人为设置的聚类数量,然后再对基因表达谱数据进行聚类,而现实中基因表达谱数据的最佳聚类的数量是未知的。在本文中,我们利用数据内在的统计特性对传统的K-均值算法进行改进了,提出了启发式K-均值聚类算法,能根据基因表达谱数据内在的统计特性自我调整聚类的数量,得到比较好的聚类结果。实验结果表明该算法能根据基因表达谱的相似性把基因表达谱数据集分成次最佳的类数。3.在基因表达谱的特征基因选取中,如果选择单纯使用Filter算法或Wrapper算法具有明显的缺陷:Filter方法选取的特征具有高冗余性、分类精度低;Wrapper方法计算复杂度高。为了结合Filter、Wrapper和聚类算法的优点,本文提出了一种新颖的混合特征基因选择方法,Filter Clustering SVM-RFE方法。该算法参数设置方便,无须搜索,运行速度快,也不必事先指定精确的聚类数量(像常用的聚类算法那样)。在白血病和结肠癌数据集的分类特征基因选择实验中获得了很好的效果。
|
全文目录
摘要 3-4 Abstract 4-9 第1章 绪论 9-17 1.1 课题研究背景及意义 9-10 1.2 基因芯片技术 10-13 1.2.1 基因芯片类型 10-11 1.2.2 基因表达谱数据及其数据分析 11-13 1.3 基于基因表达谱数据的肿瘤分类特征基因选择 13-15 1.3.1 肿瘤基因表达谱数据分析的研究水平和现状 13-15 1.3.2 肿瘤分类特征基因选择面临的问题和挑战 15 1.4 论文内容、组织 15-17 第2章 相关理论基础 17-25 2.1 支持向量机 17-18 2.2 K-均值聚类算法(K-means Clustering) 18-20 2.3 特征选择 20-25 2.3.1 特征选择的相关概念 20-22 2.3.2 FILTER 特征选择 22-23 2.3.3 Wrapper 特征选择 23 2.3.4 特征选择的典型算法 23-25 第3章 基于SVM 和相关性的肿瘤特征基因选择方法 25-32 3.1 引言 25 3.2 相关工作 25-26 3.3 支持向量机和SVM-RFE 算法 26-27 3.4 实验方法 27-30 3.4.1 噪声基因过滤 28 3.4.2 基于相关性改进的SVM-RFE 算法 28-30 3.5 实验结果 30-31 3.5.1 实验数据集 30 3.5.2 实验结果 30-31 3.6 本章小结 31-32 第4章 基于启发式K-MEANS 聚类算法分析肿瘤基因表达谱数据 32-41 4.1 引言 32 4.2 相关工作 32-33 4.3 基因表达谱的相似性度量标准 33-35 4.4 启发式K-均值聚类算法 35-37 4.4.1 相关统计理论 35 4.4.2 K-均值聚类算法 35-36 4.4.3 启发式K-均值聚类算法 36-37 4.5 实验结果 37-40 4.5.1 数据预处理 37-38 4.5.2 噪声基因过滤 38 4.5.3 聚类结果分析 38-40 4.6 本章小结 40-41 第5章 一种混合的肿瘤分类特征基因提取方法 41-51 5.1 引言 41 5.2 问题的提出 41-43 5.2.1 基因冗余 41-42 5.2.2 去除冗余特征的理论基础 42-43 5.3 相关工作 43-44 5.4 特征基因选择方法 44-46 5.4.1 过滤基因 44-45 5.4.2 冗余基因的去除 45-46 5.4.3 SVM-RFE 选取强相关特征 46 5.5 实验结果 46-48 5.5.1 实验数据 46-47 5.5.2 结果分析 47-48 5.6 本章小结 48-51 结论与展望 51-53 参考文献 53-57 攻读硕士学位期间所发表的学术论文 57-58 致谢 58
|
相似论文
- BioLab面向生物计算服务的网格系统,TP399-C8
- 南极冰藻GPx、GST和SAHH基因的克隆、定量分析及原核表达载体的构建,Q943.2
- 基于RNA测序技术的马氏珠母贝珍珠囊转录组及数字基因表达谱分析,Q786
- 高温蛋白酶Pgsey及解旋酶Htc16特征的初步研究,Q814
- 红曲霉洛伐他汀生物合成相关基因克隆与分析,TQ927
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 八种昆虫转录组数据中OBP、CSP和RyR基因预测及序列分析,S433
- 小麦基因电子表达分析平台的构建及相对于水稻的小麦特异基因的鉴定,S512.1
- 两个玉米转录因子ZmC4HC3和ZmNAC的克隆与表达分析,S513
- 夜间低温对番茄苗期抗逆性、基因表达谱及碳水化合物代谢的影响,S641.2
- ERK1/2和JNK信号通路对大鼠再生肝8种细胞的增殖和凋亡调控作用研究,Q418
- 水稻Rho家族OsRacD及其5种潜在互作蛋白的生物信息学分析,S511
- 斯氏按蚊感染约氏疟原虫后24小时差异表达基因的筛选与分析,R531.3
- 大鼠肝再生与肝硬化发生的基因转录谱相关性及其意义研究,R575.2
- 大鼠肝再生与肝肿瘤发生的基因转录谱相关性及其意义研究,R735.7
- 急性胰腺炎患者血浆DNA定量分析和基因表达谱研究,R576
- 家蚕HSP基因的表达调控研究,S881.2
- 电离辐射诱发microRNA表达改变及其对辐射损伤调控机制,R144
- 上海近郊某地区犬Torque Teno virus感染率调查及全基因组序列分析,S858.292
- 蛋白质-DNA结构模型比较及其在转录因子结合位点预测中的应用,Q51
- 生物途径数字化策略及其在共生固氮网络数据库中的实现,Q811.4
中图分类: > 医药、卫生 > 肿瘤学 > 肿瘤学实验研究
© 2012 www.xueweilunwen.com
|