学位论文 > 优秀研究生学位论文题录展示
一种综合加权的词语语义相似度计算研究
作 者: 徐瑛
导 师: 王日宏
学 校: 青岛理工大学
专 业: 计算机应用技术
关键词: 相似度 词语相似度 权重 知网 遗传算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 69次
引 用: 0次
阅 读: 论文下载
内容摘要
在中文信息处理中,文本相似度计算一直是人们研究的热点,它广泛应用于信息智能检索、自动问答系统以及机器翻译等领域。目前文本相似度计算主要有基于统计和基于语义词典两种方法。基于语义词典的方法是从语义角度来计算词语的相似度,结果与人的主观判断较为接近,且计算比基于统计的方法简便。本文研究的词语相似度计算就是在《知网》语义词典基础之上的。本文基于传统的词语相似度计算的方法,提出了一种同时考虑语义距离、义原树深度以及密度等多因素的义原相似度计算方法,并采用遗传算法对各因素的影响权重进行了优化。论文首先介绍了国内句子、词语相似度计算的现状,研究了基于《知网》的词语相似度的计算方法。然后提出了综合考虑多种因素的义原相似度计算方法,该方法从多个方面考察义原的相似度,充分利用了义原树深度、密度等信息,并采用遗传算法对影响相似度的各个因素的权重进行优化,避免了通过经验确定权值的不可靠性和主观性。最后通过对考生试卷的主观题进行自动评分实验,证明了本文所提方法的有效性。
|
全文目录
摘要 7-8 ABSTRACT 8-9 第1章 绪论 9-15 1.1 研究的背景及意义 9-10 1.2 研究现状 10-14 1.2.1 句子相似度计算研究 10-12 1.2.2 词语相似度计算的研究 12-14 1.3 本文的组织结构 14-15 第2章 基于《知网》的词语相似度计算研究 15-23 2.1 《知网(HowNet)》简介 15-19 2.2 词语相似度计算方法 19-23 2.2.1 词语相似度计算 19 2.2.2 义原相似度计算 19-20 2.2.3 概念相似度计算 20-23 第3章 融合多元信息的词语相似度计算方法的设计 23-29 3.1 融合多元信息的设计思想 23-24 3.2 融合多元信息的义原相似度计算方法 24-27 3.3 多元信息权重的选择 27-29 第4章 遗传算法的研究 29-37 4.1 遗传算法简介 29-30 4.2 遗传算法的基本操作 30-35 4.2.1 初始种群个体编码 30-31 4.2.2 群体设定 31-32 4.2.3 遗传操作 32-34 4.2.4 基本遗传算法的流程 34-35 4.3 遗传算法的优缺点 35-37 第5章 基于遗传算法的义原相似度计算实现与分析 37-45 5.1 词语相似度算法实现 37-39 5.1.1 融合多元信息的义原相似度算法设计实现 37-38 5.1.2 概念、词语相似度的计算 38-39 5.2 遗传算法优化权重的过程 39-40 5.2.1 权重系数编码 39 5.2.2 适应性函数 39 5.2.3 遗传操作 39-40 5.2.4 终止条件 40 5.3 实验与分析 40-45 5.3.1 环境与参数 40-41 5.3.2 实验结果与分析 41-45 第6章 句子相似度在主观题批阅中的应用 45-53 6.1 主观题批阅综述 45-46 6.2 主观题自动评判 46-49 6.2.1 句子预处理 46-47 6.2.2 句子语义相似度计算 47-48 6.2.3 分数分配 48-49 6.3 实现与结果分析 49-53 6.3.1 实验结果 49-51 6.3.2 结果分析 51-53 总结 53-55 参考文献 55-61 攻读硕士学位期间发表的学术论文及科研工作 61-63 致谢 63
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于均值匹配的Turbo码联合译码的Matlab实现,TN911.22
- 基于句法特征的代词消解方法研究,TP391.1
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 公路生态系统健康评价方法研究,X826
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 遗传算法在物流仓储优化中的应用研究,F259.2
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于图的科技文献相似性搜索关键技术研究,TP391.3
- 基于领域本体的专利地图研究,TP391.1
- 基于动态自适应语言模型的手机中文输入系统的研究与实现,TP391.14
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于文本相似度计算的主观题自动阅卷技术研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|