学位论文 > 优秀研究生学位论文题录展示
蛋白质序列特征提取及其在功能预测中的应用
作 者: 贾伟峰
导 师: 廖波
学 校: 湖南大学
专 业: 计算机科学与技术
关键词: 功能预测 序列比对 特征提取 相似性分析 分类算法
分类号: Q51
类 型: 硕士论文
年 份: 2010年
下 载: 129次
引 用: 0次
阅 读: 论文下载
内容摘要
特征提取和分类算法是蛋白质功能预测的核心步骤。蛋白质功能的确定有助于阐明生命体在生理或病理条件下的变化机制,并且对于疾病预防和药物开发等方面都有着十分重要的推动作用。随着生物信息学的不断发展以及相关数据的大量积累,使用科学计算方法对未知蛋白质进行功能预测成为后基因组时代生物信息学中的重要研究课题,所以蛋白质序列的特征提取和分类算法也成为当前生命科学研究的首要任务之一。本课题主要对蛋白质功能预测中的序列特征提取方法、分类算法进行研究,并设计适当的特征提取方法和分类算法在蛋白质序列数据上进行功能预测的实验。本文的主题工作包括:1.提出了一种基于BLAST比对的特征提取方法。本方法打破了现有的基于BLAST序列比对的特征提取模式,利用B12Seq的相似性分析结果,得到评价片段相似性的E-Value数列和Score数列。根据两者所代表的意义以及组成特点,提出一种新颖的蛋白质序列特征提取的方法。为了证明算法的有效性,将此方法与现有的此类特征提取方法分别应用于蛋白质功能预测的实验,实验结果证明新方法更全面、准确的体现了序列特征,有助于取得更高的预测准确率。2.提出了一种基于距离权重的分类算法。该分类方法的思想是:在传统K近邻算法的基础上加以改进,为每个近邻赋予一定的决策权重,将近邻序列与未知序列的相似距离作为权重的参数。分类时,近邻序列的数量与近邻序列的权重都起到了一定的决策作用。将该分类算法与基于分组重量编码的特征提取算法相结合,进行蛋白质序列的功能,预测。实验结果表明:这种方法具有数学模型简单,计算复杂度低,分类准确率较高等优点。
|
全文目录
摘要 5-6 Abstract 6-9 插图索引 9-10 附表索引 10-11 第1章 绪论 11-18 1.1 研究背景及意义 11-13 1.2 研究现状 13-16 1.3 论文主要工作及结构安排 16-18 第2章 蛋白质功能预测方法 18-32 2.1 蛋白质序列 19-21 2.1.1 蛋白质的基本组成单位-氨基酸 19-20 2.1.2 氨基酸的分类 20-21 2.2 蛋白质序列数据集 21-22 2.2.1 PIR蛋白质信息资源 21 2.2.2 SWISS-PROT蛋白质的序列和注释 21-22 2.3 特征提取方法 22-26 2.3.1 基于氨基酸组成和位置的特征提取方法 23-24 2.3.2 基于氨基酸物化特性的特征提取方法 24-26 2.3.3 其他特征提取方法 26 2.4 相似性度量方法 26-28 2.4.1 距离函数 27 2.4.2 相似系数函数 27-28 2.5 分类算法 28-31 2.6 小结 31-32 第3章 基于BLAST比对的特征提取方法 32-44 3.1 序列比对 32-35 3.1.1 双序列比对 33 3.1.2 多序列比对 33-34 3.1.3 打分方案 34-35 3.2 BLAST 35-37 3.3 Bl2Seq 37-39 3.4 基于BLAST比对的特征提取 39-43 3.4.1 算法思想 39-41 3.4.2 Bl2Seq比对数据 41 3.4.3 计算标准差权重 41 3.4.4 计算整体相似度 41-42 3.4.5 实验及结果分析 42-43 3.5 小结 43-44 第4章 改进的K近邻算法在蛋白质功能预测中应用 44-50 4.1 K近邻算法 44-45 4.2 改进的K近邻算法 45-49 4.2.1 基于分组重量编码的特征提取 45-46 4.2.2 基于距离权重的K近邻算法思想 46-48 4.2.3 实验及结果分析 48-49 4.3 小结 49-50 结论 50-52 参考文献 52-56 致谢 56-57 附录A 攻读学位期间所发表的学术论文和参加的项目 57
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 平顶山烤烟综合质量评价及与美国烤烟的对比分析,S572
- 红外图像目标识别及跟踪技术研究,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com
|