学位论文 > 优秀研究生学位论文题录展示

基于模板核和扩展特征的蛋白质关系抽取

作 者: 刘昊
导 师: 王健
学 校: 大连理工大学
专 业: 计算机系统结构
关键词: 蛋白质关系抽取 模板 图核 句法分析器 扩展特征
分类号: Q51
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 0次
阅 读: 论文下载
 

内容摘要


以往的蛋白质关系抽取系统主要提取出能够标示是否存在关系的典型特征,同时引入经典的已分类特征构建出属于自己的PPI系统。这样的系统在改善分类效果的同时,对特征的提取、分析、融合过程要花费大量时间,在实际应用中的分类效果并不明显。因此需要在原系统基础上考虑如何才能在不牺牲精度前提下建立优化的特征集,以此提高系统抽取的效率。本文采用了一种优化特征的方法进行蛋白质关系抽取,其主要思路是考虑到目前的主流蛋白质关系抽取系统存在如下缺点:(1)抽取特征较多,且提取过程各不相同,如何进行组合最为恰当还没有提出具体方法,有的时候两个表现优异的特征进行融合后反而会降低整体抽取精度。(2)有效特征的组合大大降低了系统效率,对系统效率的分析和细节的精度调整并没有进行详细的叙述。(3)实际抽取蛋白质关系的测试集中可能存在训练集中不包含的全新蛋白质关系和特征,单纯引入训练集的特征训练并不全面,要考虑在庞大语料集中提取更泛化的特征。针对上述问题本文试图通过对主流特征的筛选和优化来对蛋白质关系抽取系统进行构建,在借鉴前人研究基础上,引入了一种新的模板特征方法,模拟人工标注原理进行抽取词序列模板,通过多个核的融合共同提高分类效果。在原有特征提取基础上构思一种扩展特征的方法以提取精简优化特征向量,该方法能够在扩展语料集中自动找到最符合蛋白质关系抽取标准的合适特征群落,将这一特征群落进行标准化,在保持原有实验精度的前提下大大提高了关系抽取效率。该方法能够很好的解决图核方法不能处理复杂长难句的不足,通过模板快速匹配出分类结果,同时引入了句法分析和关键词标准化减少句子中的冗余词噪音,在庞大语料集中提取的扩展特征辅助提高了实验效率。在图核、模板特征和扩展特征的共同作用下,实验在Aimed语料的实验F值达到了63.1%。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-14
  1.1 研究背景  9-10
  1.2 蛋白质关系抽取研究现状  10-11
  1.3 待解决的问题  11-12
  1.4 本文工作  12
  1.5 本文的结构  12-14
2 相关知识及评测指标  14-22
  2.1 句法分析  14-15
  2.2 支持向量机  15-16
  2.3 图核特征提取方法  16-17
  2.4 模板特征提取方法  17-20
    2.4.1 预处理  18
    2.4.2 模板生成  18
    2.4.3 模板筛选  18-19
    2.4.4 模板匹配  19
    2.4.5 特征提取  19-20
  2.5 评测方法  20-22
    2.5.1 实验设定  20
    2.5.2 语料说明  20-22
3 基于单一语料集的蛋白质关系抽取  22-34
  3.1 方法介绍  22-26
    3.1.1 分析器选取  22-23
    3.1.2 SVM分类方法选取  23-24
    3.1.3 特征提取  24-25
    3.1.4 评分公式选取  25-26
    3.1.5 自分析  26
  3.2 实验结果及分析  26-34
    3.2.1 实验设计  26
    3.2.2 数据集  26-27
    3.2.3 实验结果及分析  27-33
    3.2.4 总结与下一步工作  33-34
4 大规模文本实验中的特征提取  34-43
  4.1 大规模文本特征提取思想  34-37
    4.1.1 未标注语料预处理  34-35
    4.1.2 词性规整化  35
    4.1.3 句法分析  35-36
    4.1.4 特征生成  36
    4.1.5 特征筛选  36-37
  4.2 扩展特征和现有特征的结合  37-38
    4.2.1 特征数目调节  37
    4.2.2 参数的调节  37-38
  4.3 实验分析  38-43
    4.3.1 实验数据集  38
    4.3.2 实验结果及分析  38-42
    4.3.3 下一步工作  42-43
5 交叉实验分析  43-48
  5.1 实验流程介绍  43
  5.2 单一语料上的实验结果对比  43-46
  5.3 交叉语料上的实验结果对比  46-48
结论  48-49
参考文献  49-52
攻读硕士学位期间发表学术论文情况  52-53
致谢  53-54

相似论文

  1. 溶胶—凝胶AAO模板法制备ITO准一维纳米结构,TB383.1
  2. Bi3.25La0.75Ti3O12(BLT)纳米管/线的合成工艺研究,TB383.1
  3. 水热法制备氧化物中空微球,TB383.4
  4. 2D人脸模板保护算法研究,TP391.41
  5. 基于距离映射码的安全指纹认证研究,TP391.4
  6. 有序多孔TiO2薄膜的制备及其性能研究,TB383.2
  7. 不完备信息系统的完备化及其上的知识获取,TP311.13
  8. 论电视节目模板的知识产权保护,G222
  9. 多孔氧化铜空心微球的制备及表征,O614.121
  10. 壁上有孔的二氧化硅空心球的制备,TB383.1
  11. 微/纳米结构聚苯胺及其复合材料的制备和表征,TB383.1
  12. 驾驶员眼睛开闭状态计算机图像识别技术开发,TP391.41
  13. 基于CNN的智能交通系统多车牌定位方法的研究,TP391.41
  14. 甲醇制烯烃催化剂SAPO-34分子筛的合成及改性研究,TQ221.2
  15. 跟踪印花系统视觉检测算法研究,TP391.41
  16. 基于支撑向量机与模板匹配的眼底图像分割,TP391.41
  17. 基于并联机构的视觉伺服技术,TP391.41
  18. 应急预案的形式化建模与决策规划,N945.1
  19. 基于QoS感知的Web服务组合,TP393.09
  20. 一个球幕投影系统的设计与实现,TP391.41
  21. 一种基于梯度模板特征的车牌识别算法,TP391.41

中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com