学位论文 > 优秀研究生学位论文题录展示
基于图的科技文献相似性搜索关键技术研究
作 者: 朱戈
导 师: 杨艳
学 校: 黑龙江大学
专 业: 计算机软件与理论
关键词: 相似度 相似性搜索 文献拓扑图 Hub-N算法 IPR算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 33次
引 用: 0次
阅 读: 论文下载
内容摘要
科学技术是极具传承性的事业,任何一个科技工作者要取得好的进展,都离不开前人或他人的经验和成果。近年来,随着计算机、生物、化学、医药等领域的研究成果发布周期越来越短,科技文献数目加速增长。目前,仅中国知网能检索到的文献就超过7000万篇,平均每天出版文献28000篇。面对日益增长的文献资源,如何了解当前研究领域内前人或他人的主要的研究成果、诱导类比、联想各种创新思维,促进科学发现和技术创新,快捷准确地搜索相似文献已成为人们关注的热点问题。随着生物信息学、化学情报学、社会网络分析的广泛应用,图在诸如蛋白质结构、神经网络等复杂结构建模方面日趋重要。在现实世界中,有许多科技、商业、经济、生化等领域的问题可以抽象成图上的相似性搜索问题。基于这一思想,本文提出了文献拓扑图模型,其中包括无向文献拓扑图和有向文献拓扑图,将文献的相似性搜索问题转化为图搜索问题。论文工作主要包括以下两个方面:首先,基于无向文献拓扑图提出了一种新的文献相似度评估方法,该方法结合了对文献内容与文献间的引用关系的分析,并应用容斥原理计算文献间相似度;提出了一种基于Erdǒs理论的文献相似性搜索算法—Hub-N,该算法采用了广度优先与剪枝策略相结合的搜索技术,缩小了扫描文献范围,提高了搜索效率,并通过实验验证了其有效性和可行性。同时,Hub-N算法也适用于其他领域的相似性搜索。其次,分析了PageRank算法应用于科技文献相似性搜索的可行性、优点和不足,针对PageRank的不足提出了一种改进的PageRank算法——IPR,IPR算法基于有向文献拓扑图,结合了对文献内容和文献间的引用关系的分析,从内容分析角度解决相关性需求,从引用分析角度解决权威性需求,综合计算文献间相似度,提高了搜索结果的准确率。最后,通过实验验证了IPR算法的有效性和可行性。
|
全文目录
中文摘要 3-4 Abstract 4-8 第1章 绪论 8-16 1.1 课题研究的背景和意义 8-9 1.2 国内外研究现状 9-14 1.3 本文的研究内容 14-15 1.4 本文的组织结构 15-16 第2章 科技文献相似性搜索概述 16-23 2.1 科技文献相似性搜索中的基本概念 16-19 2.1.1 科技文献的类型及特点 16 2.1.2 科技文献相似性搜索 16 2.1.3 相似度 16 2.1.4 搜索结果的度量 16-19 2.2 科技文献相似性搜索流程 19-22 2.3 本章小节 22-23 第3章 基于Erdǒs 理论的文献相似性搜索算法 23-40 3.1 引言 23 3.2 文献拓扑图模型 23-25 3.3 无向文献拓扑图存储结构 25 3.4 文献相似度计算方法 25-30 3.4.1 邻接顶点的文献相似度计算方法 26-27 3.4.2 非邻接顶点的文献相似度计算方法 27-30 3.5 文献相似性搜索算法 30-35 3.5.1 问题描述 30 3.5.2 搜索算法的实现 30 3.5.3 Hub-N 搜索算法 30-31 3.5.4 Extend 判定算法 31-33 3.5.5 Extend 判定算法的改进 33 3.5.6 Hub-N 搜索算法效率分析 33-35 3.6 实验 35-38 3.6.1 实验数据与环境 35 3.6.2 评价方法 35-36 3.6.3 实验方法及结果 36-38 3.7 本章小结 38-40 第4章 结合内容和引文分析的文献相似性搜索算法 40-56 4.1 引言 40 4.2 PageRank 算法概述 40-46 4.2.1 PageRank 计算方法 41-45 4.2.2 PageRank 算法的优点与不足之处 45 4.2.3 PageRank 应用于科技文献搜索的可行性 45-46 4.3 IPR 算法 46-52 4.3.1 IPR 算法框架 46-47 4.3.2 IPR 算法实现细节 47-52 4.4 实验 52-55 4.4.1 实验数据与环境 52 4.4.2 评价方法 52-53 4.4.3 实验方法及结果 53-55 4.5 本章小结 55-56 结论及未来工作展望 56-58 参考文献 58-63 致谢 63-64 攻读学位期间发表的学术论文 64
|
相似论文
- 基于句法特征的代词消解方法研究,TP391.1
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于领域本体的专利地图研究,TP391.1
- 基于动态自适应语言模型的手机中文输入系统的研究与实现,TP391.14
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于文本相似度计算的主观题自动阅卷技术研究,TP391.1
- 颅面复原算法研究,TP391.41
- 基于模糊区分矩阵的区间信息系统属性约简,O159
- 三维人脸识别系统研究,TP391.41
- 不同数据结构下的基因组关联分析,Q75
- 基于保局部核多元RVM的说话人识别方法研究,TN912.34
- 基于最近邻相似度的孤立点检测及半监督聚类算法,TP311.13
- 基于兴趣区域匹配图像检索系统的研究与实现,TP391.41
- 基于球面调和的三维模型检索系统研究与实现,TP391.41
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 数字学习中试题概念权重自动产生及其最佳化试题组合之研究,TP391.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|