学位论文 > 优秀研究生学位论文题录展示

中文词义消岐研究

作 者: 邓宾
导 师: 余正涛
学 校: 昆明理工大学
专 业: 计算机软件与理论
关键词: 词义消歧 知网(HowNet) 贝叶斯模型 信息增益 现代汉语语法信息词典
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 78次
引 用: 1次
阅 读: 论文下载
 

内容摘要


词义消歧是自然语言处理领域的核心问题。词义消歧的研究属于自然语言领域的基础研究,它可以应用于机器翻译、文本分类、自动文摘、信息检索、文本挖掘、语音识别、文语转换等,因此词义消歧研究在自然语言处理领域中具有重要的理论和实践意义。本文针对中文词义消歧技术做了一定的探讨,即如何克服单纯贝叶斯模型上下文范围过大?如何改变上下文对歧义词的影响程度是相同的?主要取得了以下几个方面的成果:(1)以《人民日报》语料为基础,选取了句子长度平均为30词,句子中歧义词的上下文不低于10个词,其中歧义词的义项来源于知网(HowNet),以人工标注方式构建了训练语料库,训练语料库包含句子5000左右,词语15万左右。(2)提出了基于信息增益改进贝叶斯模型的词义消岐方法。该方法利用信息增益确定了歧义词上下文范围和不同位置上下文的权值,从而限制单纯贝叶斯模型上下文的范围,同时也改变了不同位置上下文对歧义词的影响程度。实验表明,该方法在封闭测试和开放测试的平均正确率分别达到了94.39%和87.13%。(3)提出了结合信息增益及语法词典改进贝叶斯词义消岐方法。该方法利用《现代汉语语法信息词典》作为知识源,对于语料库中未出现或出现频率低的歧义词,通过词典中的属性特征获取消歧知识,是一种统计与规则相结合的方法。实验表明,该方法在封闭测试和开放测试的平均正确率分别达到了95.13%和90.87%。(4)根据上述的研究成果,设计并实现了单纯贝叶斯模型词义消岐原型系统、基于信息增益改进贝叶斯模型词义消歧原型系统、结合信息增益及语法词典改进贝叶斯模型词义消歧原型系统。

全文目录


相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 基于改进遗传算法的神经网络输入约简,TP18
  3. 基于最近邻及相似度测量检测钓鱼网页技术的研究,TP393.08
  4. 基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用,TP393.098
  5. 基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究,R730.4
  6. 集成学习及其应用研究,TP181
  7. 基于概念集合的网页内容过滤方法的研究,TP393.092
  8. 基于聚类分析的网络流量分类研究,TP393.06
  9. 基于马尔可夫逻辑网络的语义角色标注,TP391.1
  10. 基于元信息的文本分类与优化技术研究与实现,TP391.1
  11. 基于IG_NN双层属性选择的客户流失预警研究,F224
  12. 基于预测似然的贝叶斯模型平均及其在电力负荷预测中的应用,F426.61
  13. 基于学习的入侵检测算法研究,TP393.08
  14. 改进的语句相似度算法在问答系统中的应用研究,TP391.1
  15. 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
  16. 个性化搜索中用户语义意图自动识别技术研究,TP391.1
  17. 面向高速铁路的轨道异物检测研究,U216.3
  18. miRNA前体与成熟体预测方法的设计与实现,TP18
  19. 决策树分类优化算法的研究,TP301.6
  20. 基于裁剪技术的非平衡评论褒贬倾向分类研究,TP391.1
  21. 移动用户流失预警研究方法与应用模型,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com