学位论文 > 优秀研究生学位论文题录展示
基于Java的新闻搜索引擎的设计与实现
作 者: 常晓燕
导 师: 李家武
学 校: 西南交通大学
专 业: 计算机应用
关键词: 搜索引擎 专题性搜索 机器人程序 高速铁路旅客信息系统 新闻搜索引擎
分类号: TP311.52
类 型: 硕士论文
年 份: 2004年
下 载: 579次
引 用: 8次
阅 读: 论文下载
内容摘要
作为除电视、报纸、广播之外的第四大媒体,互联网已经成为人们获取新闻信息的主要来源。快速的从众多新闻网站中找到所需新闻,是新闻搜索引擎的基本任务。有重大事件发生时,如何使客户及时得到最新消息,也是当今新闻服务所关心的问题。对于高速列车来说,开发数字高速铁路旅客信息系统,让旅客享受移动式的全新的数字化服务是改善服务软环境的措施之一。本文结合搜索、数据库、网络等多种技术,实现了用于高速铁路旅客信息系统的新闻搜索引擎,该引擎为高速列车提供实时新闻。 本文从搜索引擎技术开始,阐述了搜索引擎的基本原理、所采用的相关技术,进而引出专题搜索引擎,交代了为提高专题性所采取的几种方法。最后作为专题性搜索引擎的一种,重点阐述了新闻搜索引擎,分析了网页文档半结构化的数据特点以及各大新闻网站对新闻网页的布置特点,并对新闻网页的获取、新闻内容提取算法作了详尽的论述。该引擎采用robot新闻搜索程序从Internet上取回新闻放入数据库中,由用户端程序为用户提供分类新闻、关键词搜索功能。用户可以进行个性化设置,限定新闻的刷新频率,新闻源范围。程序根据用户的设置定时刷新新闻。 该新闻搜索引擎经过测试,满足高速铁路旅客信息系统的需求,达到预期的设计效果,对我国高速铁路数字化具有一定的现实意义。同时也为其他相关项目的设计提供了参考。
|
全文目录
第1章 绪论 8-12 1.1 研究背景 8 1.2 新闻搜索的发展现状 8-11 1.3 论文内容组织 11-12 第2章 搜索引擎 12-26 2.1 搜索引擎的概述 12-13 2.1.1 搜索引擎分类 12-13 2.1.2 搜索引擎的发展 13 2.2 搜索引擎工作原理 13-14 2.2.1 全文搜索引擎 13-14 2.2.2 目录索引 14 2.3 搜索引擎组成 14-16 2.3.1 搜索器 14-15 2.3.2 索引器 15 2.3.3 检索器 15 2.3.4 用户接口 15-16 2.4 采用的技术 16-25 2.4.1 Robot技术 16-20 2.4.2 中文分词技术 20-23 2.4.3 信息预处理技术 23 2.4.4 信息检索技术 23-24 2.4.5 检索结果处理技术 24 2.4.6 人机界面技术 24-25 2.4.7 数据存储 25 2.5 本章总结 25-26 第3章 专题性搜索引擎 26-36 3.1 专题性搜索引擎概述 26-28 3.1.1 专题性搜索引擎特点 26 3.1.2 专题搜索引擎的工作原理 26-28 3.2 专题搜索引擎搜索策略 28-29 3.2.1 人工预选策略 28-29 3.2.2 先采集后过滤策略 29 3.3 专题性搜索的数据采集技术 29-30 3.3.1 首页关联技术 29-30 3.3.2 链长比技术 30 3.3.3 其他策略 30 3.4 新闻搜索引擎概述 30-31 3.5 新闻搜索引擎搜索算法实现 31-35 3.5.1 HTML网页的获取 31 3.5.2 HTML文档的提取 31-32 3.5.3 URL队列的获得 32-34 3.5.4 避免锤击 34 3.5.5 网络陷阱 34-35 3.6 本章小结 35-36 第4章 新闻搜索引擎分析设计 36-50 4.1 引擎背景 36-38 4.1.1 高速列车旅客信息系统 36-37 4.1.2 短消息传送 37-38 4.2 设计指导原则 38-39 4.3 用户功能要求 39 4.4 系统架构 39-40 4.4.1 方案选择 39-40 4.4.2 系统架构 40 4.5 后台设计 40-45 4.5.1 搜索步骤 41-42 4.5.2 功能模块 42-43 4.5.3 具体实现思路 43-45 4.6 前台设计 45-46 4.6.1 前台程序实现 45-46 4.6.2 数据的更新 46 4.7 数据库设计 46-49 4.7.1 数据库需求分析 47 4.7.2 数据库概念结构设计 47-48 4.7.3 数据库逻辑结构设计 48-49 4.8 本章小结 49-50 第5章 新闻搜索引擎的实现 50-68 5.1 运行环境 50 5.2 软件开发环境 50-51 5.3 系统详细设计 51-59 5.3.1 URL收集器(UrlGather) 51-53 5.3.2 新闻收集器(NewsGather) 53-54 5.3.3 网页文本获取器(fetch) 54 5.3.4 网页分析器(Hparser) 54-56 5.3.5 数据库处理 56 5.3.6 Collect_Resule类 56 5.3.7 线程池 56-57 5.3.8 GatherApp类 57-58 5.3.9 其他输入输出文件 58-59 5.3.10 前台程序实现 59 5.4 程序运行相关界面 59-64 5.5 新闻搜索引擎的评测 64-65 5.5.1 评测方法 64 5.5.2 系统评测 64-65 5.6 新闻搜索引擎运行环境 65-66 5.6.1 结构模式 65-66 5.6.2 必备软件环境 66 5.6.3 硬件环境 66 5.7 网站新闻短消息定制服务与本新闻搜索引擎的比较 66-67 5.8 本章总结 67-68 总结 68-70 致谢 70-71 参考文献 71-76 攻读硕士学位期间发表的论文 76
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
- 网络下载侵权分析,D923.41
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 基于本体的智能答疑系统研究与实现,TP311.52
- 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
- 对搜索引擎扩充语义信息功能方法研究,TP391.3
- 基于用户兴趣模型的个性化搜索引擎研究与分析,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|