学位论文 > 优秀研究生学位论文题录展示
蛋白质关系抽取中平面特征和结构化信息的研究
作 者: 刘兵
导 师: 周国栋;钱龙华
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 蛋白质关系抽取 平面特征 结构化信息 统计机器学习
分类号: TP181
类 型: 硕士论文
年 份: 2011年
下 载: 22次
引 用: 1次
阅 读: 论文下载
内容摘要
蛋白质相互作用关系(Protein-Protein Interactions,PPIs,简称蛋白质关系)对理解生物过程具有重要的意义,从生物医学文本中自动抽取出蛋白质关系可以极大地提高抽取效率。本文在深入研究现有蛋白质关系抽取方法的基础上,以发掘更有效的平面特征和更合理的结构化信息表达方式为研究主线,采用统计机器学习方法进行蛋白质关系抽取,研究内容主要包括:1.研究各种平面特征对蛋白质关系抽取的作用。本文探索了词汇、组块、句法、依存和语义等各种平面特征对蛋白质关系抽取的影响,并通过特征组合来有效提高蛋白质关系抽取的性能。2.研究结构化信息对蛋白质关系抽取的作用。针对目前结构化信息表达方式所存在的问题,本文提出了利用依存信息来指导句法树的裁剪策略,旨在产生既能涵盖关键结构化信息又能有效剔除噪音的依存指导句法树,从而有效捕获蛋白质关系实例中的结构化特征。在PPI基准语料库上对蛋白质关系抽取的实验表明,词汇信息和依存信息对蛋白质关系抽取的贡献最大,并且各种平面特征的集成能有效提高蛋白质关系抽取的性能;而依存指导句法树则能显著提高蛋白质关系抽取的性能,在目前采用成分句法树的蛋白质关系抽取中取得了最好的性能。
|
全文目录
中文摘要 4-5 Abstract 5-8 第1章 绪论 8-14 1.1 研究背景和意义 8-9 1.2 研究现状和存在的问题 9-12 1.3 本文的研究内容 12 1.4 本文的组织结构 12-14 第2章 蛋白质关系抽取相关知识 14-25 2.1 蛋白质关系抽取概述 14-16 2.1.1 蛋白质关系抽取的任务 14-15 2.1.2 蛋白质关系抽取的支撑技术 15-16 2.2 相关资源及工具 16-21 2.2.1 PPI 语料库介绍 16-18 2.2.2 句法分析工具 18-19 2.2.3 SVM 分类器 19-21 2.3 实验方法及评价标准 21-24 2.3.1 k 倍交叉验证策略 21-22 2.3.2 常用性能评价标准 22-23 2.3.3 实验中需注意的问题 23-24 2.4 本章小结 24-25 第3章 蛋白质关系抽取中的平面特征 25-42 3.1 蛋白质关系抽取流程 25-27 3.2 平面特征抽取 27-35 3.2.1 语料预处理 27-30 3.2.2 平面特征及其抽取 30-34 3.2.3 特征向量生成 34-35 3.3 实验结果与分析 35-41 3.3.1 各种特征的贡献 35-37 3.3.2 与其它系统的比较和多语料库实验 37-39 3.3.3 跨领域语义关系抽取比较 39-41 3.4 本章小结 41-42 第4章 蛋白质关系抽取中的结构化信息 42-59 4.1 已有结构化信息表达形式 42-45 4.2 最短依存路径指导的成分句法树(SDP-CPT) 45-49 4.2.1 结构化信息中存在的问题 45-47 4.2.2 最短依存路径指导的成分句法树实现 47-49 4.3 核函数方法及卷积树核函数 49-51 4.4 实验结果与分析 51-58 4.4.1 不同长度的依存路径对PPI 抽取的影响 52-53 4.4.2 各种依存类型对PPI 抽取的贡献 53-55 4.4.3 与其它结构化信息的比较 55-57 4.4.4 与其它PPI 抽取系统的比较 57-58 4.5 本章小结 58-59 第5章 总结与展望 59-62 5.1 研究工作总结 59-60 5.2 下一步的工作展望 60-62 参考文献 62-66 攻读硕士学位期间发表的论文 66 攻读硕士学位期间参与的项目 66-67 致谢 67-68
|
相似论文
- 学术主页信息抽取系统的研究,TP393.092
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 基于语义的金融企业非结构化信息检索系统研究,TP391.3
- 基于梯度特征和级联分类的快速行人检测,TP391.41
- 基于视觉关注的彩色图像检索技术研究,TP391.41
- 泛在网标识与寻址的结构化关联研究,TN915.02
- 全向视觉特征匹配问题研究,TP391.41
- 基于机器学习的蛋白质相互作用关系抽取的研究,Q51-3
- 基于云计算的海量电子病历文本分析系统研究,TP391.1
- 基于模板核和扩展特征的蛋白质关系抽取,Q51
- 中文维基百科的结构化信息抽取及词语相关度计算,TP391.1
- 基于归纳学习的Web半结构化信息抽取,TP393.09
- 基于树核的代词消解研究,TP391.1
- 非结构化信息处理平台中的基于角色的访问控制框架设计与实现,TP393.08
- 基于核函数与SVD的蛋白质关系抽取,TP399-C8
- 支持协同的分布式本体管理系统的设计和实现,TP311.52
- 基于UIMA的企业知识管理系统研究,TP311.52
- 脱机手写体汉字识别研究,TP391.43
- 基于半监督和主动学习的蛋白质关系抽取研究,Q51
- 面向领域的垂直搜索系统研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|