学位论文 > 优秀研究生学位论文题录展示
相似度计算在科技项目管理系统中的研究及应用
作 者: 林建海
导 师: 徐小良
学 校: 杭州电子科技大学
专 业: 计算机应用技术
关键词: 未登录词识别 关键词提取 智能检索 相似度计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 2次
引 用: 0次
阅 读: 论文下载
内容摘要
随着我国各类科技项目申请数量的快速增长,管理部门难以通过人工形式做到科学有效的审查,导致项目重复申报立项的现象屡见不鲜。因此,项目查重系统关键技术的研究及应用是非常有意义的。本文基于文本处理和相似度计算等技术和方法,重点研究科技项目的关键词提取、智能检索、相似度计算及在项目管理系统中的创新应用。主要研究内容如下:1针对科技项目存在未登录词且往往是关键词的特点,在分词基础上研究提出一种基于规则模型的未登录词识别方法。此外,通过自动学习策略来扩展完善停用词库。2提出一种基于统计结合语义信息的项目关键词提取方法。依据词的语义和共现关系构建带权词语网络并给出网络中节点的综合特征值计算方法,结合统计信息值得到词语的权值并根据权值大小提取关键词,然后联合未登录词建立项目知识表示模型并构建项目索引库。3在以上研究的基础上研究提出一种基于关键词的项目语义检索方法。对查询文本进行预处理和语义扩展得到查询关键词集合,并提出相关性函数来计算其与检索索引库中项目之间的相关度,然后根据相关度对检索结果进行排序。4提出一种基于项目知识表示模型的相似度计算方法。通过相关词加权策略对关键词权重进行优化,根据项目知识表示中词语的类型进行相应的语义相似度计算与基于字符匹配的相似度计算并融合得到项目内容项间的相似度,然后对内容项的相似度加权求和得到项目的相似度。基于上述研究成果开发的科技项目相似性检测系统实现了项目检索和查重的智能化和科学性,同时极大地减少了项目人工查重的工作量,验证了本文研究成果的有效性。
|
全文目录
摘要 5-6 ABSTRACT 6-11 第一章 绪论 11-17 1.1 研究背景及意义 11 1.2 国内外研究现状 11-15 1.2.1 文本相似度计算 11-13 1.2.2 未登录词识别 13-14 1.2.3 关键词提取 14-15 1.3 主要研究内容与创新点 15-16 1.4 本文的内容安排 16 1.5 本章小结 16-17 第二章 未登录词识别及停用词库自动构建研究 17-23 2.1 项目申请书特征分析 17 2.2 基于规则模型的未登录词识别方法研究 17-20 2.2.1 未登录词识别流程 17-18 2.2.2 规则模型 18-19 2.2.3 实验结果与分析 19-20 2.3 停用词库的自动构建研究 20-22 2.3.1 停用词的自动选择方法 20-21 2.3.2 基于统计的自动学习策略 21-22 2.4 本章小结 22-23 第三章 科技项目关键词提取方法研究 23-35 3.1 关键词提取技术 23 3.2 预处理 23-24 3.3 词语统计信息计算 24-25 3.4 带权词语网络构建 25-30 3.4.1 词语共现关系 25-28 3.4.2 词语语义相似度 28 3.4.3 带权词语网络 28-30 3.5 关键词提取流程 30-31 3.6 实验结果与分析 31 3.7 科技项目知识表示模型研究 31-32 3.8 科技项目索引库构建 32-33 3.9 本章小结 33-35 第四章 科技项目的智能检索研究 35-41 4.1 智能检索技术 35-36 4.2 科技项目检索分析 36-37 4.3 基于关键词的项目语义检索研究 37-40 4.3.1 信息检索模型 37-38 4.3.2 基于关键词的项目语义检索 38-40 4.4 本章小结 40-41 第五章 科技项目相似度计算方法研究 41-47 5.1 文本相似度计算技术 41-42 5.2 基于项目知识表示模型的相似度计算研究 42-46 5.2.1 相关词加权策略 42 5.2.2 基于语义的相似度计算 42-43 5.2.3 基于字符匹配的相似度计算 43-44 5.2.4 项目相似度计算 44-45 5.2.5 实验及分析 45-46 5.3 本章小结 46-47 第六章 科技项目相似性检测系统实现 47-60 6.1 系统体系架构 47-49 6.2 项目索引库构建模块 49-50 6.3 项目智能检索模块 50-51 6.4 项目相似度计算模块 51-52 6.5 判定模块 52 6.6 系统应用实现 52-59 6.7 本章小结 59-60 第七章 总结与展望 60-62 7.1 本文的总结 60 7.2 研究工作展望 60-62 致谢 62-63 参考文献 63-68 附录 68-69 详细摘要 69-72
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
- 基于球面调和的三维模型检索系统研究与实现,TP391.41
- 山东圣翰财贸职业学院图书馆WEB系统的设计与实现,TP311.52
- 基于自适应分词与SVM算法的互联网智能音乐检索技术研究,TP391.3
- 面向工程监理的多Agent信息智能检索机制研究,TP391.3
- 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
- 基于基因表达式编程的中文文本关键词提取算法研究,TP391.1
- 基于改进TF-IDF的文本信息热点话题发现,TP391.1
- 面向企业信息检索的中文分词系统的研究与实现,TP391.1
- 基于复杂网络理论的文本聚类和关键词提取方法研究,TP391.1
- 搜索引擎中文分词技术研究,TP391.1
- 潜在语义索引技术在知识产权专家库中的研究与应用,TP391.3
- 现代汉语新词提取研究,H08
- 基于SVM的突发事件新闻话题跟踪方法研究,TP391.1
- 问答系统中文问句分析关键问题研究,TP391.1
- 中文重复网页的检测算法研究,TP393.092
- 数字图书馆多层次阅读扩展系统,G250.76
- Web文本分类方法研究与系统实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|