学位论文 > 优秀研究生学位论文题录展示
垂直搜索引擎的研究及在机场信息检索中的应用
作 者: 张洋
导 师: 高凯; 李慧
学 校: 河北科技大学
专 业: 计算机技术
关键词: 航空公司 信息检索 搜索引擎 分词 聚类
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 5次
引 用: 0次
阅 读: 论文下载
内容摘要
随着国内各大航空公司业务的飞速发展和提高服务质量的迫切需求,国内各大机场纷纷建立了官方网站,为乘客提供诸如航班信息查询、进出港引导、重要信息提示、相关规定查询、在线咨询等信息服务,在一定程度上方便了旅客,同时也提高了机场的服务质量。但是这些与机场相关的信息往往多是分散在各机场的网站里,当乘客需要查询特定机场信息时,一般需要通过通用搜索引擎检索相关机场的主页,然后进入网站内逐层打开网页,查找和筛选所需信息,步骤繁琐且不方便。本课题对垂直搜索引擎进行了研究,基于Nutch构建了机场垂直搜索引擎系统。论文分析了民航垂直搜索引擎的构成,介绍了系统的总体设计原则、体系结构、系统流程、模块划分等,对各流程进行了优化设计。实验和实用表明,设计的垂直搜索引擎系统能满足用户需求,可为机场相关信息检索提供“一站式”的便捷服务,达到了预期设计要求。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-10 1.1 论文的研究背景 8-9 1.1.1 研究背景 8 1.1.2 选题意义 8-9 1.2 研究内容 9 1.3 论文组织结构 9-10 第2章 相关技术综述 10-22 2.1 搜索引擎综述 10-11 2.2 垂直搜索引擎 11-12 2.2.1 垂直搜索引擎概述 11 2.2.2 垂直搜索引擎的关键技术 11-12 2.3 中文分词 12-15 2.3.1 概述 12-13 2.3.2 中文分词算法 13-15 2.4 Lucene 15-21 2.4.1 Lucene 构架 16-17 2.4.2 Lucene 索引 17-21 2.4.3 Lucene 分词 21 2.4.4 Lucene 的优势 21 2.5 本章小结 21-22 第3章 机场垂直搜索引擎的设计与实现 22-40 3.1 Nutch 架构和工作原理 22 3.2 原型系统的设计与实现 22-26 3.2.1 修改站点属性配置文件 23 3.2.2 修改网址过滤规则文件 23 3.2.3 配置 Tomcat 23-24 3.2.4 中文分词 24-26 3.3 显示效果 26-30 3.3.1 首页的修改 26-28 3.3.2 搜索结果页的修改 28 3.3.3 分页显示 28 3.3.4 改变摘要长度 28-30 3.4 检索结果聚类 30-31 3.5 网站资源的选取 31 3.6 如何限制 Nutch 爬虫的网页抓取范围 31-32 3.7 从 HTML 网页中提取正文信息 32-34 3.7.1 含有正文信息的标签节点的特征 32-33 3.7.2 含有噪声信息的标签节点的特征 33-34 3.8 从非 HTML 文件中提取文本 34-35 3.8.1 从 PDF 文件里提取文本信息 34-35 3.8.2 从 Word 文件里提取文本信息 35 3.8.3 从 Excel 文件里提取文本信息 35 3.9 相关搜索功能 35-36 3.9.1 依据字面相似度提供相关搜索功能 35-36 3.9.2 依据语义相关度提供相关搜索功能 36 3.10 文档相关性及排序 36-38 3.11 本章小结 38-40 第4章 系统运行与测试 40-46 4.1 实验环境 40 4.2 系统测试策略 40-44 4.2.1 抓取器的测试 40-41 4.2.2 索引器测试 41-42 4.2.3 搜索器测试 42 4.2.4 对系统精确度和召回率的测试 42-44 4.2.5 对两种聚类算法的测试 44 4.3 系统综合性能分析 44-45 4.4 本章小结 45-46 结论 46-48 参考文献 48-52 致谢 52-54 攻读硕士学位期间所发表的论文 54-56 个人简历 56
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|