学位论文 > 优秀研究生学位论文题录展示
基于语义范畴扩展的词义消歧的研究
作 者: 孙广庆
导 师: 卢志茂
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: 自然语言处理 词义消歧 语义范畴扩展 语料库
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 94次
引 用: 1次
阅 读: 论文下载
内容摘要
词义消歧是自然语言处理中亟待解决的一个关键问题,词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,也是近些年来是计算语言学和自然语言处理领域一个重要的研究课题。本文对词义消歧的相关研究方法和词义消歧的知识源进行了综合评述。针对当前词义消歧常见的问题采用了一种新的解决方法。近年来计算机的运算速度成倍增长及存储设备容量的增加也使得基于统计的方法能够发展下去,所以近年来基于统计的方法也得到了较快的发展。词典资源和语料库是基于统计方法消歧消歧常用的资源,基于有指导的词义消歧需要语料库来进行训练,为消歧提供判断词义的信息。本文根据实际需要选择了扩充的词典资源,使之更符合词义消歧的需要。数据稀疏及小概率词义的问题一直是词义消歧领域很难解决的问题。为了缓解有导词义消歧方法中人工标注语料的繁重劳动以及数据稀疏问题,我们分别对歧义词和歧义词的指示词进行了同义词扩展和同范畴扩展,以此来提高现有语料的使用效率,解决数据稀疏的问题。通过设计实验,验证了本文方法是有效的,该方法能够较有效的缓解有导词义消歧方法中数据稀疏问题及小概率词义问题。本文的方法使词义消歧的正确率有了一定的提高,对词义消歧的方法的研究具有一定的参考价值。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-23 1.1 课题的研究背景及意义 10-13 1.1.1 课题的研究背景 10-11 1.1.2 词义消歧的应用领域 11-13 1.2 国内外学术界对词义消歧的研究 13-16 1.2.1 消歧的定义 13-14 1.2.2 国外的研究状况 14-15 1.2.3 国内的研究状况 15-16 1.3 词义消歧遇到的主要难题 16-20 1.3.1 上下文选择 16-18 1.3.2 词典(或知识库)的建设 18-19 1.3.3 语料库的获得 19-20 1.3.4 词义的划分 20 1.4 本文的主要研究内容 20-22 1.4.1 课题的来源 20 1.4.2 本文的研究内容 20-22 1.5 本文的组织结构 22-23 第2章 统计词义消歧的资源建设及研究方法 23-32 2.1 词义消歧相关资源介绍 23-27 2.1.1 HowNet 23-24 2.1.2 WordNet 24-25 2.1.3 汉语词典 25-26 2.1.4 同义词词林 26 2.1.5 语料库 26-27 2.2 词义消歧方法概述 27-31 2.2.1 基于规则的词义消歧方法 29 2.2.2 基于词典的词义消歧方法 29-30 2.2.3 有指导的词义消歧方法 30 2.2.4 无指导的词义消歧方法 30-31 2.3 本章小结 31-32 第3章 语义范畴扩展概述 32-38 3.1 语义学中语义范畴的概念 32-33 3.2 语义范畴中的原型及扩展 33-34 3.3 同义词及近义词的分类依据 34-35 3.4 语义范畴扩展的方法 35-37 3.4.1 歧义词的扩展 36 3.4.2 指示词的扩展 36-37 3.5 本章小结 37-38 第4章 基于歧义词扩展的词义消歧 38-49 4.1 歧义词扩展 38-41 4.1.1 标注语料内的歧义词扩展 38-40 4.1.2 无标注语料中的歧义词扩展 40-41 4.2 歧义词扩展的统计方法实现 41-45 4.2.1 贝叶斯分类模型 41-43 4.2.2 基于贝叶斯分类的实现 43-45 4.3 实验结果及评测分析 45-48 4.3.1 实验用语料库 45-46 4.3.2 结果及评测分析 46-48 4.4 本章小结 48-49 第5章 基于指示词扩展的词义消歧 49-55 5.1 指示词的识别 49-51 5.2 扩展指示词 51 5.3 实验结果及评测分析 51-54 5.3.1 实验用语料库 51-52 5.3.2 结果及评测分析 52-53 5.3.3 两种语义扩展方法的对比分析 53-54 5.4 本章小结 54-55 结论 55-57 参考文献 57-62 攻读硕士学位期间发表的论文和取得的科研成果 62-63 致谢 63
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 基于语料库对TAKE用法的比较研究,H319
- 中国大学生英语作文中SO使用情况的语料库分析,H319
- 基于语料库的中外学术语篇中立场副词对比研究,H314
- 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
- 中外英文学术语篇中词块的结构和功能对比研究,H315
- 学术主页信息抽取系统的研究,TP393.092
- 现代汉语功能句型及其语料库建设,H146
- 英语学术论文标题的短语学特征研究,H313
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于语料库的中美经济语篇批评分析,H052
- 基于物流专业词汇联想测试的心理词库研究,H319
- 基于语料库的英语专业学习者书面语中心理使役动词使用研究,H319
- 中美语言学硕士论文中因果标记语的对比研究,H313
- 中国政府文件中国特色英语词丛研究,H313
- 基于语料库对科技英语次技术词用法的研究,H314
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于话题的多文档文摘技术研究,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|