学位论文 > 优秀研究生学位论文题录展示

基于划分聚类的特征基因选择算法研究

作 者: 李星
导 师: 廖波
学 校: 湖南大学
专 业: 计算机科学与技术
关键词: 基因芯片 特征选择 聚类 测地距离 局部线性嵌入
分类号: Q75
类 型: 硕士论文
年 份: 2010年
下 载: 90次
引 用: 0次
阅 读: 论文下载
 

内容摘要


对基因表达谱进行分类是生物信息学中一个重要的研究领域。基因芯片可以在一次实验中大规模并行检测成千上万个基因的表达量,对肿瘤癌症等疾病的分类、诊断研究有非常重要的实际意义。但是,基因芯片数据高通量、高维数、非线性、高噪声、数据分布不均衡等特点,使得我们对这种数据进行处理时遇到了很多困难。如何从海量的基因表达谱数据中发掘出少量的具有分类识别能力且冗余度最小的特征基因,对于疾病诊断以及研究肿瘤癌症治病机理起着关键作用。本文研究的特征基因选择方法都是利用白血病数据集进行验证,主要的研究工作如下:1.提出了一种基于测地距离的特征基因选择方法。由于基因表达谱非线性的特点,普通的欧几里得距离无法很好地表示基因之间的相似性度量。而测地距离这种流形距离的度量方式,可以很好的展示基因之间复杂的内在关系。在测地距离矩阵的基础上,本文改进了K-中心点聚类方法,并且选择出特征基因子集,然后利用支持向量机对特征基因子集进行分类精度进行预测。实验的结果证明,基于测地距离预测精度比传统的欧几里得距离得出的预测精度要好。2.提出了一种基于局部线性嵌入特征基因选择方法。由于基因表达谱高维、高噪声、非线性的特点,传统的聚类算法并不能准确地对基因表达谱进行聚类分析。于是,通过局部线性嵌入的非线性降维方法,基因的向量空间被映射到低维空间,以致对基因向量空间进行了降维,而且使得基因之间的相似性关系更能显示其内在联系。最后,本文对白血病基因表达谱进行了实验,并且和其他文献进行了比较,结果得出本方法是可行的、有效的。

全文目录


摘要  5-6
Abstract  6-9
插图索引  9-10
附表索引  10-11
第1章 绪论  11-16
  1.1 研究背景和意义  11-12
  1.2 基因芯片技术  12-14
    1.2.1 基因芯片类型  12-13
    1.2.2 基因表达谱数据  13-14
  1.3 特征基因选择面临的问题  14-15
  1.4 论文结构安排  15-16
第2章 相关理论知识  16-31
  2.1 流形学习方法  16-21
    2.1.1 多维尺度变换(MDS)  17-18
    2.1.2 等距映射(Isomap)  18-19
    2.1.3 局部线性嵌入(LLE)  19-21
  2.2 聚类分析方法  21-25
    2.2.1 划分方法  23-25
    2.2.2 层次方法  25
  2.3 特征选择方法  25-30
    2.3.1 过滤法  26-28
    2.3.2 缠绕法  28-29
    2.3.3 混合法  29-30
  2.4 小结  30-31
第3章 基于测地距离的特征基因选择算法  31-43
  3.1 算法分析  31-32
  3.2 实验方法  32-39
    3.2.1 噪声基因过滤  32-33
    3.2.2 基因数据相似性度量  33-34
    3.2.3 基于测地距离的聚类算法  34-36
    3.2.4 分类器  36-39
  3.3 实验结果  39-42
    3.3.1 实验数据  39
    3.3.2 结果分析  39-40
    3.3.3 实验结果比较  40-42
  3.4 小结  42-43
第4章 基于局部线性嵌入的特征基因选择算法  43-52
  4.1 算法分析  43-44
  4.2 实验方法  44-47
    4.2.1 过滤法  44-45
    4.2.2 基因向量空间降维  45-46
    4.2.3 基于LLE的聚类算法  46-47
  4.3 实验结果  47-51
    4.3.1 实验数据  47
    4.3.2 实验方法  47-50
    4.3.3 实验结果比较  50-51
  4.4 小结  51-52
结论  52-54
参考文献  54-59
致谢  59-60
附录A 攻读学位期间所发表的学术论文及所参加项目  60

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 图像分割中阴影去除算法的研究,TP391.41
  4. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  5. 高血压前期证候特征研究,R259
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 大学生综合素质测评研究,G645.5
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  11. 土壤环境功能区划研究,X321
  12. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  13. 猪瘟病毒和猪2型圆环病毒基因芯片检测技术研究,S858.28
  14. 基于变异粒子群的聚类算法研究,TP18
  15. K-means聚类优化算法的研究,TP311.13
  16. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  17. 基于遗传算法和粗糙集的聚类算法研究,TP18
  18. 基于分治法的聚类方法研究,TP311.13
  19. 演化聚类算法及其应用研究,TP311.13
  20. 基于运动目标轨迹分析的智能交通监控系统,TP277
  21. 利谷隆致胚胎期SD大鼠睾丸发育整体基因表达水平的研究,Q75

中图分类: > 生物科学 > 分子生物学 > 分子遗传学
© 2012 www.xueweilunwen.com