学位论文 > 优秀研究生学位论文题录展示

中文词典中词汇属性知识的获取

作 者: 宋孜攀
导 师: 陆汝占
学 校: 上海交通大学
专 业: 计算机软件与理论
关键词: 自举 多序列比对 语义相似度 同义词替换
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 21次
引 用: 0次
阅 读: 论文下载
 

内容摘要


词汇知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经成为自然语言处理研究人员和系统开发者的共识。目前语义关系库的建立,主要还是采用手工的方法,工作量很大。我们相信,词汇间关系必然有着其内在的规律,完全有借助程序高效自动辅助抽取的可能。如果能够引入计算机辅助提取工作,那么建立这样词汇知识体系的效率将大大提高。本文研究利用机器可读词典作为资源,使用基于bootstrapping的信息抽取框架为技术手段,对词典中词汇的属性知识进行获取。本文的贡献主要如下:首先,提出了一套基于bootstrapping框架的词汇属性知识获取的完整流程。整个流程的关键部分是模板-元组的迭代获取。其次,对知识获取流程中的各个环节进行研究,并提出或应用了相应的方案。在初始模板的生成中,研究并使用了正规表达式来描述模板,并提出了在词典释义项中获取词汇知识模板的方法。在模板的合并过程中,采用多序列比对技术,对模板的抽取能力进行增强。并在模板的泛化阶段采用同义词替换、词汇语义相似度计算来扩充模板的覆盖率。在词汇知识的提取阶段,采用模板匹配的方法,实现词汇知识的自动抽取。最后,实现了一个词汇属性知识的抽取系统,并针对手工以及baseline系统进行了比对实验,以验证本文所提方法的有效性。本文的研究朝着抽取词汇的较完备的内涵特征和关系的目标更进了一步。如果我们通过词典建立了较完备的词汇属性知识,那么我们就可以对很多中文自然语言处理应用打下一个良好的基础。

全文目录


摘要  2-3
ABSTRACT  3-7
1 绪论  7-15
  1.1 知识库的研究与发展  7-11
  1.2 信息抽取的发展  11-13
  1.3 本文研究的意义及主要内容  13-14
  1.4 本文内容安排  14-15
2 词汇属性特征及其获取方法  15-25
  2.1 概念的内涵特征  15-16
  2.2 词汇属性特征获取方法  16-21
    2.2.1 信息抽取基本原理  16-19
    2.2.2 信息抽取的基本方法  19-21
  2.3 基于bootstrapping 的信息抽取框架  21-24
  2.4 本章小结  24-25
3 词典中词汇属性知识获取模型  25-40
  3.1 词汇知识获取流程  26-28
  3.2 符号说明  28
  3.3 SRE 模板提取  28-31
    3.3.1 SRE 定义  28-29
    3.3.2 SRE 模板获取过程  29-31
  3.4 模板合并  31-36
    3.4.1 模板的对齐  31-35
    3.4.2 SRE 模板的合并  35-36
  3.5 模板的泛化  36-38
  3.6 本章小结  38-40
4 基于Bootstrapping 的词汇属性获取系统的实现  40-51
  4.1 分词与词性标注  41-43
  4.2 SRE 模板的XML 表示  43-45
  4.3 SRE 模板抽取元组的方式  45-46
  4.4 词典的预处理  46-47
  4.5 正例集反例集的生成  47
  4.6 SRE 模板的合并  47-49
  4.7 本章小结  49-51
5 实验结果及分析  51-56
  5.1 实验设计  51
  5.2 同baseline 系统的比对  51-53
  5.3 同手工系统的比对  53-54
  5.4 抽取结果过滤  54-56
6 全文总结  56-57
参考文献  57-59
致谢  59-60
攻读硕士期间发表的论文  60-61
工学硕士答辩决议书  61-63

相似论文

  1. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  2. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  3. 基于链接重要性的动态链接预测算法研究,TP393.03
  4. 基于本体的智能电网知识检索系统,TM76
  5. 基于TMS320VC5509A的语音加密系统的设计与实现,TN918.4
  6. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  7. 蛋白质关系网络复合物发现与可视化研究,TP391.41
  8. 木马网络通信特征提取技术研究,TP393.08
  9. 生物多序列比对研究算法,Q7-3
  10. 生物信息多序列比对算法研究,TP301.6
  11. 粒子群优化算法的改进及其应用研究,TP18
  12. 与大麦黄矮病毒介体传毒相关的通读蛋白ORF5基因的分子变异研究,S435.123
  13. 蛋白质多序列比对算法及其评估算法的研究,TP301.6
  14. 基于抽象嵌入单元的自然语言信息隐藏算法研究与实现,TP309
  15. 多搜索策略的多生物序列比对自适应遗传算法,TP18
  16. 群智能优化算法在多序列比对中的应用,TP301.6
  17. 模拟退火遗传算法在生物多序列比对中的应用研究,TP18
  18. 基于遗传退火的生物信息学多序列比对算法研究,TP301.6
  19. 蚁群算法和编码理论在序列分析中的应用,TP301.6
  20. DNA分类中的遗传算法和多序列比对模型研究,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com