学位论文 > 优秀研究生学位论文题录展示

基于图的科技文献相似性搜索关键技术研究

作 者: 朱戈
导 师: 杨艳
学 校: 黑龙江大学
专 业: 计算机软件与理论
关键词: 相似度 相似性搜索 文献拓扑图 Hub-N算法 IPR算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 33次
引 用: 0次
阅 读: 论文下载
 

内容摘要


科学技术是极具传承性的事业,任何一个科技工作者要取得好的进展,都离不开前人或他人的经验和成果。近年来,随着计算机、生物、化学、医药等领域的研究成果发布周期越来越短,科技文献数目加速增长。目前,仅中国知网能检索到的文献就超过7000万篇,平均每天出版文献28000篇。面对日益增长的文献资源,如何了解当前研究领域内前人或他人的主要的研究成果、诱导类比、联想各种创新思维,促进科学发现和技术创新,快捷准确地搜索相似文献已成为人们关注的热点问题。随着生物信息学、化学情报学、社会网络分析的广泛应用,图在诸如蛋白质结构、神经网络等复杂结构建模方面日趋重要。在现实世界中,有许多科技、商业、经济、生化等领域的问题可以抽象成图上的相似性搜索问题。基于这一思想,本文提出了文献拓扑图模型,其中包括无向文献拓扑图和有向文献拓扑图,将文献的相似性搜索问题转化为图搜索问题。论文工作主要包括以下两个方面:首先,基于无向文献拓扑图提出了一种新的文献相似度评估方法,该方法结合了对文献内容与文献间的引用关系的分析,并应用容斥原理计算文献间相似度;提出了一种基于Erdǒs理论的文献相似性搜索算法—Hub-N,该算法采用了广度优先与剪枝策略相结合的搜索技术,缩小了扫描文献范围,提高了搜索效率,并通过实验验证了其有效性和可行性。同时,Hub-N算法也适用于其他领域的相似性搜索。其次,分析了PageRank算法应用于科技文献相似性搜索的可行性、优点和不足,针对PageRank的不足提出了一种改进的PageRank算法——IPR,IPR算法基于有向文献拓扑图,结合了对文献内容和文献间的引用关系的分析,从内容分析角度解决相关性需求,从引用分析角度解决权威性需求,综合计算文献间相似度,提高了搜索结果的准确率。最后,通过实验验证了IPR算法的有效性和可行性。

全文目录


中文摘要  3-4
Abstract  4-8
第1章 绪论  8-16
  1.1 课题研究的背景和意义  8-9
  1.2 国内外研究现状  9-14
  1.3 本文的研究内容  14-15
  1.4 本文的组织结构  15-16
第2章 科技文献相似性搜索概述  16-23
  2.1 科技文献相似性搜索中的基本概念  16-19
    2.1.1 科技文献的类型及特点  16
    2.1.2 科技文献相似性搜索  16
    2.1.3 相似度  16
    2.1.4 搜索结果的度量  16-19
  2.2 科技文献相似性搜索流程  19-22
  2.3 本章小节  22-23
第3章 基于Erdǒs 理论的文献相似性搜索算法  23-40
  3.1 引言  23
  3.2 文献拓扑图模型  23-25
  3.3 无向文献拓扑图存储结构  25
  3.4 文献相似度计算方法  25-30
    3.4.1 邻接顶点的文献相似度计算方法  26-27
    3.4.2 非邻接顶点的文献相似度计算方法  27-30
  3.5 文献相似性搜索算法  30-35
    3.5.1 问题描述  30
    3.5.2 搜索算法的实现  30
    3.5.3 Hub-N 搜索算法  30-31
    3.5.4 Extend 判定算法  31-33
    3.5.5 Extend 判定算法的改进  33
    3.5.6 Hub-N 搜索算法效率分析  33-35
  3.6 实验  35-38
    3.6.1 实验数据与环境  35
    3.6.2 评价方法  35-36
    3.6.3 实验方法及结果  36-38
  3.7 本章小结  38-40
第4章 结合内容和引文分析的文献相似性搜索算法  40-56
  4.1 引言  40
  4.2 PageRank 算法概述  40-46
    4.2.1 PageRank 计算方法  41-45
    4.2.2 PageRank 算法的优点与不足之处  45
    4.2.3 PageRank 应用于科技文献搜索的可行性  45-46
  4.3 IPR 算法  46-52
    4.3.1 IPR 算法框架  46-47
    4.3.2 IPR 算法实现细节  47-52
  4.4 实验  52-55
    4.4.1 实验数据与环境  52
    4.4.2 评价方法  52-53
    4.4.3 实验方法及结果  53-55
  4.5 本章小结  55-56
结论及未来工作展望  56-58
参考文献  58-63
致谢  63-64
攻读学位期间发表的学术论文  64

相似论文

  1. 基于句法特征的代词消解方法研究,TP391.1
  2. 多邮件自动文摘的关键技术研究,TP391.1
  3. 基于相似度计算的编程题自动评判方法研究,TP312.1
  4. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  5. WordNet和《中国分类主题词表》的映射研究,G254
  6. 基于领域本体的专利地图研究,TP391.1
  7. 基于动态自适应语言模型的手机中文输入系统的研究与实现,TP391.14
  8. 基于本体的食品投诉文档文本分类研究,TP391.1
  9. 基于本体的食品投诉文档文本聚类研究,TP391.1
  10. 基于文本相似度计算的主观题自动阅卷技术研究,TP391.1
  11. 颅面复原算法研究,TP391.41
  12. 基于模糊区分矩阵的区间信息系统属性约简,O159
  13. 三维人脸识别系统研究,TP391.41
  14. 不同数据结构下的基因组关联分析,Q75
  15. 基于保局部核多元RVM的说话人识别方法研究,TN912.34
  16. 基于最近邻相似度的孤立点检测及半监督聚类算法,TP311.13
  17. 基于兴趣区域匹配图像检索系统的研究与实现,TP391.41
  18. 基于球面调和的三维模型检索系统研究与实现,TP391.41
  19. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  20. 数字学习中试题概念权重自动产生及其最佳化试题组合之研究,TP391.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com