学位论文 > 优秀研究生学位论文题录展示
面向中医药的多元语义搜索引擎
作 者: 杨克特
导 师: 陈华钧;姜晓红
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 搜索引擎 全文检索 语义索引 排序机制 Lucene Nutch
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 44次
引 用: 0次
阅 读: 论文下载
内容摘要
随着万维网的迅速发展以及信息技术在各个科学领域的普及,数据的表现方式在同一科学领域的不同机构之间已呈现出不同的特点,数据之间的共享以及集成成为对数据资源进行有效利用的难题。为了快速而准确的获取特定领域的科学数据,面向领域的搜索引擎应运而生。针对目前的这一需求,在实验室原来DartSearch与DartQuery的基础上,提出了新的面向中医药领域的多元语义搜索引擎系统。本文主要介绍该系统的设计与实现。首先,本文简要回顾了目前搜索引擎技术的发展现状和面临的难题,并对实验室原有的相关工作DartSearch和DartQuery进行了简单介绍和对存在的问题进行了分析。随之介绍了与系统相关的全文检索技术,搜索结果排序机制以及开源搜索引擎的发展现状,并对系统中用到的两个开源工具Lucene和Nutch进行了简单介绍。本文的重点主要体现在以下三个方面。首先,提出了搜索引擎系统的整体设计,对系统涉及到的模块,架构以及所采取的技术进行了详细的介绍。其次,提出了多元语义数据索引方法,该方法能够集成中医药领域多种来源的异构异质数据,并且具有足够的灵活性来兼容以后新添加的数据类型。最后,提出了基于本体的搜索结果排序算法,该算法在考虑本体重要性的基础上,综合用户查询与结果的匹配度,对结果进行排序。此方法符合用户对搜索结果的预期,具有较好的实际效果。在论文的最后部分,还对搜索系统进行了展示,并扼要的分析了此系统将来可能面临的问题,提出了搜索系统的发展方向。
|
全文目录
摘要 3-4 Abstract 4-10 第1章 绪论 10-20 1.1 课题背景 10-15 1.1.1 大规模中医药数据共享 10-11 1.1.2 本体论和RDF简介 11-13 1.1.3 传统搜索引擎和语义搜索引擎 13-15 1.2 项目背景 15-18 1.2.1 DartGrid简介 15-16 1.2.2 DartQuery与DartSearch简介 16-17 1.2.3 DartSearch的问题分析 17-18 1.3 论文内容和组织结构 18-20 1.3.1 论文研究内容 18-19 1.3.2 论文组织结构 19-20 第2章 系统相关技术 20-25 2.1 全文检索技术 20-21 2.1.1 基本情况 20 2.1.2 Lucene介绍 20-21 2.2 搜索结果排序机制 21-23 2.2.1 基本情况 21-22 2.2.2 PageRank介绍 22-23 2.3 开源搜索引擎 23-24 2.3.1 基本情况 23 2.3.2 Nutch介绍 23-24 2.4 本章小结 24-25 第3章 中医药多元语义搜索引擎总体设计 25-32 3.1 设计目标 25-26 3.2 解决方案 26-28 3.3 架构设计 28-31 3.4 本章小结 31-32 第4章 中医药多元语义索引 32-47 4.1 索引技术概述 32-34 4.1.1 什么是索引 32 4.1.2 倒排索引技术 32-33 4.1.3 数据库索引技术 33-34 4.2 中医药多元语义索引 34-38 4.2.1 设计目标 34-36 4.2.2 解决方案 36-38 4.3 多元语义索引实现 38-45 4.3.1 建立多元数据的语义模型 38-40 4.3.2 提取多元语义数据 40-42 4.3.3 构建索引 42-45 4.4 本章小结 45-47 第5章 基于本体的排序机制 47-56 5.1 基于本体的排序算法介绍 47-50 5.1.1 OntoRank算法 47-48 5.1.2 AKTiveRank算法 48-50 5.2 排序算法设计 50-52 5.2.1 现有算法问题分析 50 5.2.2 本体重要度 50-51 5.2.3 查询匹配度 51 5.2.4 综合计算公式 51-52 5.3 算法实现及实验分析 52-55 5.3.1 本体重要度计算 52-53 5.3.2 查询匹配度计算 53 5.3.3 实验及分析 53-55 5.4 本章小结 55-56 第6章 系统应用展示 56-60 6.1 系统应用介绍 56 6.2 界面展示 56-59 6.3 本章小结 59-60 第7章 总结与展望 60-61 参考文献 61-63 攻读硕士学位期间主要的研究成果 63-64 致谢 64
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 主题搜索引擎关键技术研究,TP391.3
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
- 数据库全文检索方法研究及其应用,TP311.13
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 面向海量数据的云存储系统实现与应用研究,TP333
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 企业短信互动系统设计及实现关键技术研究,TN929.53
- 基于搜索引擎网页排序算法研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|