学位论文 > 优秀研究生学位论文题录展示
基于串核的蛋白质分类算法的研究与实现
作 者: 唐德昌
导 师: 张岩
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 蛋白质结构分类 串核 谱核 后缀树
分类号: TP301.6
类 型: 硕士论文
年 份: 2008年
下 载: 26次
引 用: 0次
阅 读: 论文下载
内容摘要
生物信息学的一个关键问题是理解由染色体中的基因所决定的蛋白质的含义或者功能。对蛋白质进行分类是解决这个问题的有效途径之一。如何提高蛋白质分类的精确性,或在保证精确性不会有较大的降低的前提下,如何提高蛋白质分类算法的计算效率和降低对内存的需求量,一直是生物信息学领域关注的焦点问题之一。本文正是在对经典的蛋白质分类算法研究的基础上,寻求更好的特征映射方法和更快的串核计算方法。基于串核的支持向量机分类器是现今分类效果最好的蛋白质分类器之一,其中,基于谱核的分类器具有速度快,分类效果也比较好的特点。而后改进的不匹配核通过引入不精确匹配思想,在增加了核的计算时间后,取得了更好的分类效果。本文通过对典型的串核,以及基于trie-树的串核计算进行分析,提出了对其在特征映射和计算上的改进方法。本文的主要工作和创新点有:(1)针对串核在特征提取上的不足,本文采用了一类称为样本核的特征提取方法。样本核以训练样本为特征来定义核的特征空间,以串核或其它核为相关的特征映射。所以,样本核以其他的分类核为基础,并可以通过增加先验知识和改变特征空间来改变分类效果。随后,本文针对不同应用下样本核的设计、选取以及计算简要做了分析。(2)在针对串核的计算方法上,本文设计并采用了一种称为剪枝后缀树的数据结构。剪枝后缀树结合了后缀树的后缀链思想以及trie-树在根结点计算核值的方法,具有比后缀树更少的空间以及比trie-树更快的时间。然后,应用剪枝后缀树设计出了针对p-谱核的快速计算方法。(3)针对p-谱核在字符匹配上的不足,结合不匹配核的思想提出了另一种不精确匹配核——模糊谱核。模糊谱核同样加入了不精确匹配的思想,但不同于不匹配核,模糊谱核把不匹配定义在两个样本串上。而在模糊谱核的计算上,同样利用了剪枝后缀树提高了字符匹配的速度。最后,本文设计并实现了一个蛋白质分类模型,并通过该模型对上面几种核进行了测试,通过测试实验表明,样本核在对串核的分类效果上有明显的改善,而剪枝后缀树也大大提高了串核计算的速度。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-19 1.1 课题研究的背景和意义 9-18 1.1.1 生物信息学 9-10 1.1.2 蛋白质结构分类 10-14 1.1.3 蛋白质分类算法 14-18 1.2 本文的研究内容 18-19 第2章 基于串核的支持向量机分类 19-29 2.1 引言 19 2.2 支持向量机 19-21 2.3 串核及其特征映射 21-25 2.3.1 序列空间映射 21-22 2.3.2 典型的串核及其定义 22-25 2.4 基于Trie-树的串核计算 25-28 2.4.1 基于trie-树的谱核计算 25-27 2.4.2 基于trie-树的不匹配谱核计算 27-28 2.5 本章小结 28-29 第3章 基于剪枝后缀树的核计算及样本核 29-47 3.1 引言 29-30 3.2 样本核 30-32 3.3 p-样本谱核及其计算 32-40 3.3.1 剪枝后缀树设计 32-34 3.3.2 P-谱核的计算 34-38 3.3.3 算法复杂度分析 38-40 3.4 模糊谱核和样本模糊谱核 40-46 3.4.1 (p,m)-模糊谱核 41 3.4.2 (p,m)-模糊谱核计算方法 41-45 3.4.3 (p,m)-样本模糊谱核 45-46 3.5 本章小结 46-47 第4章 蛋白质分类模型设计及实验分析 47-65 4.1 蛋白质分类模型设计 47-56 4.1.1 结构设计 47-52 4.1.2 系统功能 52-56 4.2 实验结果与分析 56-64 4.2.1 运行时间分析 56-61 4.2.2 分类效果分析 61-64 4.3 本章小结 64-65 结论 65-66 参考文献 66-72 致谢 72
|
相似论文
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基因组中最大唯一匹配的查找算法研究,TP301.6
- Web中文文本聚类研究,TP391.1
- DNA序列中串联重复体查找算法研究,R346
- 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
- 生物序列索引结构构造算法研究,TP391.3
- 酒类陈酿过程中分子缔合及电化学参数变化研究,TS261.4
- 蛋白质结构分类研究,Q51
- 双阈值控制的字符串核SVM研究,TP181
- 核学习方法及其在生物序列分析中的应用,Q7
- 牛蒡资源调查及牛蒡子苷元制备工艺研究,R283
- 基于数据挖掘技术的蛋白质结构分类的研究,TP311.13
- 流数据中频繁模式挖掘算法的研究,TP311.13
- Web日志频繁序列模式挖掘的研究,TP311.13
- 网络协议异常检测模型的研究与应用,TP393.08
- 面向特定领域的互联网舆情分析技术研究,TP393.09
- 三维模型检索中关键技术的研究,TP391.3
- 结构化数据核函数的研究,TP18
- 毛细管电泳法手性化合物拆分及其机理研究,R917
- MALDI-TOF质谱联合NMR及HPLC分析植物单宁结构及抗氧化能力研究,Q946
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com
|