学位论文 > 优秀研究生学位论文题录展示
基于WebHarvest的中文财经新闻搜索引擎的设计与实现
作 者: 隋玉航
导 师: 薛志东
学 校: 华中科技大学
专 业: 软件工程
关键词: 搜索引擎 网络爬虫 中文分词
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 30次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的迅速发展,其所承载的信息量呈爆炸式增长,因此,如何有效地利用这些丰富的信息资源逐渐成为研究人员关注的课题。搜索引擎在当今互联网领域起着十分重要的作用,它是获取知识信息的主要工具。同时,随着用户需求的进一步扩大,获取更加准确、更加深层的专业信息,成为搜索引擎的一项新要求。针对目前新的需求变化,本文提出了一个基于webharvet的中文新闻搜索引擎。首先详细介绍了搜索引擎的系统结构,然后从网络爬虫、索引引擎、Web服务器以及其中涉及到的一些算法进行详细的说明。并在此基础上,开发了一个基于webharvet的中文新闻搜索引擎。简而言之,新闻搜索引擎是按照初始的URL列表到指定的Web页面中进行页面解析,并把解析到的新闻创建建索引后存入到数据库.用户在客户端访问web服务器上的索引并取出数据库中相应的新闻信息。除了常见的搜索引擎相关组件之外,系统设计了一个并发网络爬虫,在考虑到性能需求的同时兼顾了新闻数据抓取的精确度,并在此基础上添加了过滤,文本去重,持久化等一系列组件。在构建爬虫相关组件中采用了许多成熟的设计模式来进行各个模块的整合和功能优化。而索引部分采用了Lunece构建索引,通过IKanalyzer进行中文分词和词法分析,并针对不断更新的数据进行索引的合并和优化。另外,结合用户需求,添加了用户评分和权限等相关操作,主要目的是为开发一个面向用户的体验良好的中文新闻搜索引擎。在介绍搜索引擎的章节中,详细地描述了相关技术点,同时列出了构建该系统的相关代码和逻辑图表。
|
全文目录
摘要 3-4 Abstract 4-7 1 绪论 7-10 1.1 系统开发背景 7 1.2 系统开发目的 7 1.3 系统国内外现状研究 7-8 1.4 论文的主要研究工作 8-10 2 相关关键技术和算法分析 10-20 2.1 Web-Harvest 10-13 2.2 SSH 框架 13-17 2.3 基于特征码的网页去重算法 17-19 2.4 本章小结 19-20 3 系统分析与设计 20-37 3.1 需求分析 20-21 3.2 系统总体设计 21-23 3.3 新闻爬虫设计 23-27 3.4 索引和搜索设计 27-30 3.5 用户评分及登录注册模块设计 30-31 3.6 数据库的设计 31-36 3.7 本章小结 36-37 4 系统实现 37-48 4.1 系统开发环境与运行环境 37-38 4.2 新闻爬虫实现 38-43 4.3 索引部分的实现 43-44 4.4 用户前端部分的实现 44-47 4.5 本章小结 47-48 5 系统测试 48-53 5.1 测试环境 48 5.2 系统测试 48-49 5.3 测试结果与分析 49-52 5.4 本章小结 52-53 6 总结与展望 53-54 6.1 全文总结 53 6.2 展望 53-54 致谢 54-55 参考文献 55-57
|
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 中文XML压缩技术研究,TP311.11
- 企业邮件监管系统的设计与实现,TP393.098
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|