学位论文 > 优秀研究生学位论文题录展示

一种汉语词义消歧方法的研究

作 者: 但汉辉
导 师: 张玉芳
学 校: 重庆大学
专 业: 计算机系统结构
关键词: 词义消歧 本体 知网 上下文 相关度计算 相似度计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 160次
引 用: 2次
阅 读: 论文下载
 

内容摘要


词义消歧(Word Sense Disambiguation ,WSD)是计算语言学和自然语言处理领域一个重要的研究课题,也是近些年来该领域的热点研究问题之一。词义消歧结果的好坏直接影响到机器翻译、信息检索、句法分析和语音识别等应用领域。因此词义消歧研究在自然语言处理领域中具有重要的理论和实践意义。词义消歧方法有多种,目前基于知识库的词义消歧方法研究相对较少。对于这种有别于统计消歧的方法,在开放文本领域表现出明显的优势,而且该方法优于基于语料库的有指导学习方法。近几年来本体(ontology)研究迅速发展,目前在本体的内容、本体的表达方式、构建规则、自动化构建技术等诸多方面,都有持续深入的研究。随着越来越多高质量本体的出现,本体的应用越来越多的受人关注。本文沿着基于知识库消歧的方向,提出了一种利用中文本体知识库《知网》的相关资源、上下文信息等来进行词义消歧的一种方法,并通过计算词语的相关度和相似度来实现本文的词义消歧。具体的研究围绕以下几个方面:现阶段,很多词义消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,在实际应用中有一定的局限性,因此本文希望能够针对真实的应用情况,对大规模文本进行词义消歧的研究。文中指出对任意输入的文本进行分词和词性标注后,再利用知网字典资源识别出文本中的多义词,解决了真实应用中存在的问题。利用本体作为词义消歧的知识库,避免了人工训练语料库获取词义的复杂过程,并能提供准确的含义,同时还能对大规模的多义词实现消歧。在利用上下文一定大小的窗口提取歧义词的特征词时,提出了基于三次互信息的思想来计算歧义词和上下文词语的相关度,有效地区别了高频词和低频词,并根据相关度的大小,提取出带有歧义词大量信息的特征词。根据本体是共享概念模型的明确的形式化的规范说明,是对世界知识的概念化描述,它可以作为自然语言处理系统中的世界知识库的特点(本文主要利用中文知网的资源)以及概念和概念之间的关系,提出了利用改进的相似度计算结果的大小来判断歧义词在特定上下文中的准确含义,从而实现词义消歧。实验证明本文的词义消歧准确率比以前的几种方法有较大的提高,进一步说明了论文中的词义消歧方法是可行的和高效的。

全文目录


相似论文

  1. 多邮件自动文摘的关键技术研究,TP391.1
  2. 词义消歧语料库自动获取方法研究,TP391.1
  3. 上下文相关的词汇复述研究,TP391.1
  4. 基于相似度计算的编程题自动评判方法研究,TP312.1
  5. 哲学思想在指导中学数学教学中的作用,G633.6
  6. 基于本体的语义检索研究,TP391.3
  7. 不同人群本体感觉差异性比较及脑机制研究,B845
  8. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  9. 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
  10. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  11. WordNet和《中国分类主题词表》的映射研究,G254
  12. 拉图尔的行动者网络理论研究,N02
  13. 220kV输电线路除冰机器人机械本体研究,TP242
  14. 基于本体的食品投诉文档文本聚类研究,TP391.1
  15. 基于本体的中文科技论文分类研究,TP391.1
  16. 基于本体的食品投诉文本危害信息抽取研究,TP391.1
  17. 基于扩展下推自动机的Java程序安全相关行为模型自动生成,TP311.52
  18. 面向观点挖掘的汽车本体知识库建立研究,TP391.1
  19. 面向信用评估领域的WEB服务组合方法的研究,TP393.09
  20. 基于语义的Web服务发现研究,TP393.09
  21. 基于领域本体的海洋环境数据仓库设计,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com