学位论文 > 优秀研究生学位论文题录展示

一种综合加权的词语语义相似度计算研究

作 者: 徐瑛
导 师: 王日宏
学 校: 青岛理工大学
专 业: 计算机应用技术
关键词: 相似度 词语相似度 权重 知网 遗传算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 69次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在中文信息处理中,文本相似度计算一直是人们研究的热点,它广泛应用于信息智能检索、自动问答系统以及机器翻译等领域。目前文本相似度计算主要有基于统计和基于语义词典两种方法。基于语义词典的方法是从语义角度来计算词语的相似度,结果与人的主观判断较为接近,且计算比基于统计的方法简便。本文研究的词语相似度计算就是在《知网》语义词典基础之上的。本文基于传统的词语相似度计算的方法,提出了一种同时考虑语义距离、义原树深度以及密度等多因素的义原相似度计算方法,并采用遗传算法对各因素的影响权重进行了优化。论文首先介绍了国内句子、词语相似度计算的现状,研究了基于《知网》的词语相似度的计算方法。然后提出了综合考虑多种因素的义原相似度计算方法,该方法从多个方面考察义原的相似度,充分利用了义原树深度、密度等信息,并采用遗传算法对影响相似度的各个因素的权重进行优化,避免了通过经验确定权值的不可靠性和主观性。最后通过对考生试卷的主观题进行自动评分实验,证明了本文所提方法的有效性。

全文目录


摘要  7-8
ABSTRACT  8-9
第1章 绪论  9-15
  1.1 研究的背景及意义  9-10
  1.2 研究现状  10-14
    1.2.1 句子相似度计算研究  10-12
    1.2.2 词语相似度计算的研究  12-14
  1.3 本文的组织结构  14-15
第2章 基于《知网》的词语相似度计算研究  15-23
  2.1 《知网(HowNet)》简介  15-19
  2.2 词语相似度计算方法  19-23
    2.2.1 词语相似度计算  19
    2.2.2 义原相似度计算  19-20
    2.2.3 概念相似度计算  20-23
第3章 融合多元信息的词语相似度计算方法的设计  23-29
  3.1 融合多元信息的设计思想  23-24
  3.2 融合多元信息的义原相似度计算方法  24-27
  3.3 多元信息权重的选择  27-29
第4章 遗传算法的研究  29-37
  4.1 遗传算法简介  29-30
  4.2 遗传算法的基本操作  30-35
    4.2.1 初始种群个体编码  30-31
    4.2.2 群体设定  31-32
    4.2.3 遗传操作  32-34
    4.2.4 基本遗传算法的流程  34-35
  4.3 遗传算法的优缺点  35-37
第5章 基于遗传算法的义原相似度计算实现与分析  37-45
  5.1 词语相似度算法实现  37-39
    5.1.1 融合多元信息的义原相似度算法设计实现  37-38
    5.1.2 概念、词语相似度的计算  38-39
  5.2 遗传算法优化权重的过程  39-40
    5.2.1 权重系数编码  39
    5.2.2 适应性函数  39
    5.2.3 遗传操作  39-40
    5.2.4 终止条件  40
  5.3 实验与分析  40-45
    5.3.1 环境与参数  40-41
    5.3.2 实验结果与分析  41-45
第6章 句子相似度在主观题批阅中的应用  45-53
  6.1 主观题批阅综述  45-46
  6.2 主观题自动评判  46-49
    6.2.1 句子预处理  46-47
    6.2.2 句子语义相似度计算  47-48
    6.2.3 分数分配  48-49
  6.3 实现与结果分析  49-53
    6.3.1 实验结果  49-51
    6.3.2 结果分析  51-53
总结  53-55
参考文献  55-61
攻读硕士学位期间发表的学术论文及科研工作  61-63
致谢  63

相似论文

  1. 天然气脱酸性气体过程中物性研究及数据处理,TE644
  2. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  3. 基于均值匹配的Turbo码联合译码的Matlab实现,TN911.22
  4. 基于句法特征的代词消解方法研究,TP391.1
  5. 多邮件自动文摘的关键技术研究,TP391.1
  6. 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
  7. 部队人员网上训练与考核系统的开发,TP311.52
  8. 基于并行算法的模糊综合评价模型的设计与应用,TP18
  9. 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
  10. 公路生态系统健康评价方法研究,X826
  11. 基于遗传算法的中短波磁天线的设计及实现,TN820
  12. 基于相似度计算的编程题自动评判方法研究,TP312.1
  13. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  14. 遗传算法在物流仓储优化中的应用研究,F259.2
  15. WordNet和《中国分类主题词表》的映射研究,G254
  16. 基于图的科技文献相似性搜索关键技术研究,TP391.3
  17. 基于领域本体的专利地图研究,TP391.1
  18. 基于动态自适应语言模型的手机中文输入系统的研究与实现,TP391.14
  19. 基于本体的食品投诉文档文本分类研究,TP391.1
  20. 基于本体的食品投诉文档文本聚类研究,TP391.1
  21. 基于文本相似度计算的主观题自动阅卷技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com