学位论文 > 优秀研究生学位论文题录展示

基于知网的汉语词义消歧方法的研究

作 者: 于林林
导 师: 蔡东风;张桂平
学 校: 沈阳航空工业学院
专 业: 计算机应用技术
关键词: 词义消歧 知网 搭配库 相似度 相关度
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 51次
引 用: 1次
阅 读: 论文下载
 

内容摘要


词义消歧一直以来都是自然语言处理领域的一个关键课题,对众多研究领域都具有十分重要的理论和实践意义。通过对现有词义消歧方法的全面分析,发现目前主流的词义消歧方法主要存在如下两点不足之处,首先,有指导的统计词义消歧方法对语料库具有较强的依赖性,且大规模语料库难以构建,从实用角度而言具有局限性;其次,以词典中的实例为资源的词义消歧方法通常面临实例不充分以及未登录词难以标注等问题。通过上面的分析,本文提出了通过构建搭配库来弥补大规模语料获取困难以及词典中实例不足的思想,文中还给出了搭配库构建的原则以及设计方案。本文在已有概念相似度相关度计算方法的基础上进一步引入义原在义原树中的层次信息和语义框架信息对相似度、相关度算法进行改进,实验证明,改进后的概念相似度、相关度计算方法得到的结果更合理。此外,本文还提出了一种通过对未登录词进行切分重组等操作构建等价上位词的方法为未登录词寻求一个比较合理的可替代义项,通过对十个未登录词进行义项标注测试,得到的标注结果较为合理。最后,本文搭建了一个基于知网的多种方法融合的词义消歧系统,该系统首先利用搭配库中的搭配信息实现初步的词义消歧,然后通过相似度和相关度相结合的方法完成进一步的词义消歧,实验结果显示,该方法可以获得较好的词义消歧结果。

全文目录


摘要  6-7
Abstract  7-11
第1章 绪论  11-15
  1.1 背景介绍  11
  1.2 课题的提出及研究意义  11-12
  1.3 本文的工作  12-13
  1.4 论文的组织  13-15
第2章 词义消歧方法概述  15-23
  2.1 基于规则的词义消歧  15
  2.2 基于词典的词义消歧  15-16
  2.3 基于语料的词义消歧方法  16-20
    2.3.1 有指导词义消歧  17-18
    2.3.2 无指导词义消歧方法  18-20
  2.4 汉语词义消歧的现状  20-21
  2.5 现有的评测方法  21-22
  2.6 小结  22-23
第3章 基于搭配库的词义消歧  23-31
  3.1 基于知网的搭配库的构建  23-28
    3.1.1 知网简介  23-24
    3.1.2 搭配库构建动机  24
    3.1.3 搭配的选取  24-26
    3.1.4 χ~2检验  26-27
    3.1.5 搭配的义项标注  27-28
  3.2 基于搭配库的词义消歧  28-30
    3.2.1 基于搭配库的词义消歧方法  28-29
    3.2.2 实验结果  29-30
  3.3 小结  30-31
第4章 基于相似度相关度的词义消歧  31-42
  4.1 相似度计算  31-33
  4.2 基于相似度的词义消歧  33-34
    4.2.1 基于相似度的词义消歧方法  33-34
    4.2.2 实验结果与分析  34
  4.3 相关度计算  34-39
    4.3.1 义原相关度计算  35-37
    4.3.2 相关词语义原的关联度  37-39
  4.4 基于相关度的词义消歧  39-40
    4.4.1 基于相关度的词义消歧方法  39
    4.4.2 实验结果与分析  39-40
  4.5 小结  40-42
第5章 未登录词的语义标注  42-46
  5.1 未登录词语义标注的意义  42
  5.2 未登录词语义标注的方法  42-44
    5.2.1 第一类未登录词的语义标注  42-43
    5.2.2 第二类未登录词的语义标注  43-44
  5.3 实验结果  44-45
  5.4 小结  45-46
第6章 多种方法融合的词义消歧  46-52
  6.1 多种方法融合的词义消歧方法  46-48
  6.2 系统结构设计  48-49
  6.3 实验结果与分析  49-51
    6.3.1 对比实验的选取  50
    6.3.2 实验结果与分析  50-51
  6.4 小结  51-52
结论  52-54
参考文献  54-57
致谢  57-58
攻读硕士期间发表(含录用)的学术论文  58

相似论文

  1. 基于句法特征的代词消解方法研究,TP391.1
  2. 多邮件自动文摘的关键技术研究,TP391.1
  3. 词义消歧语料库自动获取方法研究,TP391.1
  4. 基于相似度计算的编程题自动评判方法研究,TP312.1
  5. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  6. WordNet和《中国分类主题词表》的映射研究,G254
  7. 基于本体的食品投诉文档文本聚类研究,TP391.1
  8. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  9. 智能答疑系统中句子相似度计算的研究与应用,TP391.1
  10. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  11. 基于CBR的离散模拟模型可复用性研究,TP301.6
  12. 面向论坛信息文本的有效数据抽取研究,TP391.1
  13. 面向教育新闻的主题爬虫设计与实现,TP391.3
  14. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
  15. 基于链接重要性的动态链接预测算法研究,TP393.03
  16. 社会化网络中的推荐算法及其应用,TP391.3
  17. 网络环境下人才知识结构智能交互生成方法研究,TP391.6
  18. 基于本体的智能电网知识检索系统,TM76
  19. 基于内容的大规模数字图像检索技术研究,TP391.41
  20. 基于模糊理论的Web用户聚类的研究,TP311.13
  21. 基于人类视觉特性的结构相似度图像质量评价,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com