学位论文 > 优秀研究生学位论文题录展示
改进搜索引擎性能的研究
作 者: 赵青
导 师: 何丕廉
学 校: 天津大学
专 业: 计算机应用
关键词: 搜索引擎 搜索词分类 最大熵分类 本体
分类号: TP391.3
类 型: 硕士论文
年 份: 2007年
下 载: 124次
引 用: 0次
阅 读: 论文下载
内容摘要
首先介绍了当今搜索引擎所用到的一些重要的技术,然后围绕两个研究重点:搜索词意图理解分类和基于本体的搜索结果的排序展开了深入的分析。在搜索词意图理解分类中,本文在前人的研究基础上首先提出了依据搜索点击分布数据和互联网锚链接分布两个分类方法,并建立了两个数学模型,实现了大规模搜索词的快速分类。然后,本文又采用了机器学习中最大熵分类方式,提出了对任意搜索词的基于特征的自动分类方式,这其中重点研究总结了可用于分类的搜索词特征。实验结果显示本文的分类方法基本上可以很好的满足应用需要。然后是基于本体的搜索结果排序的研究。本体是知识表示模型中最有表达能力的一种模型,又具有其他知识表示模型的特征。本文首先概述了本体的概念,然后提出了详细的基于本体的文章打分方法,最后给出了这些方法在实际项目中的应用效果。结果表明该搜索排序策略在面向特定领域的搜索中确有较高的应用价值。
|
全文目录
摘要 3-4 ABSTRACT 4-6 第一章 绪论 6-11 1.1 选题背景与研究思路 6-8 1.2 搜索引擎的发展研究现状 8-9 1.3 本文主要研究内容和创新点 9 1.4 论文结构 9-11 第二章 搜索引擎的基本原理 11-16 2.1 搜索引擎的原理 11-12 2.2 搜索引擎的基本结构 12-13 2.3 搜索引擎的分类 13-14 2.4 开源搜索引擎开发包Lucene的简介 14-16 第三章 搜索词的意图理解与分类 16-37 3.1 研究现状和意义 16-18 3.2 本文的分类方法概述 18-19 3.3 方法详述 19-37 3.3.1 步骤一:半自动分类方式 19-28 3.3.2 步骤二:全自动分类方法 28-37 第四章 基于本体的搜索结果排序 37-52 4.1 本体 37-39 4.1.1 什么是本体 37-38 4.1.2 本体的作用 38 4.1.3 本体的构建 38-39 4.2 构建专业领域的本体知识库 39-43 4.3 本体知识库与搜索的融合 43-44 4.4 本体排序方法 44-46 4.5 改进方案 46-47 4.6 项目实现 47-50 4.6.1 程序结构 47-48 4.6.2 实现效果 48-50 4.7 本章小结 50-52 第五章 总结与展望 52-54 参考文献 54-57 发表论文和参加科研情况说明 57-58 致谢 58
|
相似论文
- 哲学思想在指导中学数学教学中的作用,G633.6
- 基于本体的语义检索研究,TP391.3
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 网络搜索引擎的相关技术研究,G354
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于语义网络的智能搜索引擎研究,TP391.3
- 220kV输电线路除冰机器人机械本体研究,TP242
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 基于语义的Web服务发现研究,TP393.09
- 本体在智能小区中的应用研究,TP391.1
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 普适计算下智能空间的哲学探究,N02
- 企业级软件组件质量保障与快速部团策略的研究,TP311.53
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 一种基于语义的建筑工程质量检测方法研究,TP391.1
- 分布式搜索引擎索引安全及缓存策略研究,TP333
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|