学位论文 > 优秀研究生学位论文题录展示

基于Web信息获取的新闻数据分析研究

作 者: 王晶
导 师: 蒲戈光
学 校: 华东师范大学
专 业: 软件工程
关键词: 垂直搜索 外汇新闻 信息检索 Heritrix
分类号: TP393.09
类 型: 硕士论文
年 份: 2009年
下 载: 166次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的飞速发展,针对于日益膨胀的Web信息,搜索引擎成为人们应用Web的一个信息导航工具。其中,有着行业色彩并且兼有“专、精、深”特点的垂直搜索引擎越来越受到用户的青睐。现在,垂直搜索引擎已经覆盖了很多行业:房产、求职、商务、医疗健康和公交出行等。但是经调查研究发现,关于外汇新闻的垂直搜索技术还没有一个成熟的平台,但是市场的需求是存在的。现在关注外汇市场交易的人越来越多,基于这样的需求,本文即结合垂直搜索引擎技术设计了以外汇新闻为主题的新闻分析引擎系统,用以帮助汇市的用户更加方便的掌握外汇市场方面的讯息。本文应用开源软件Heritrix作为爬虫工具,对国内外著名外汇新闻网站进行信息的抓取,通过对Heritrix的一些组件进行定制,得以对抓取的新闻信息进行搜集和初步过滤。然后对网页内容进行分析,去除文本格式,通过过滤算法,转换为文本文字。进而将这些信息进行进一步的分词,过滤高频词汇和虚词,得到适合于索引的语素单元组合。利用Lucene工具并且结合倒排索引结构进行关键词匹配,采用文档关键字作为索引,实现用户查询接口,为查询请求提供检索服务。当在Server端收到DataType为用户搜索内容的信息后,通过新闻搜索类,进行搜索,将搜索到的数据的关键部分,通过已经建立好的TCP链接,发送给相应用户。经过试验证明,本文设计和实现的外汇新闻分析引擎能够满足用户结构化查询的需求,该系统具有较好的实用价值和应用前景。

全文目录


摘要  6-7
Abstract  7-10
第1章 绪论  10-14
  1.1 引言  10-11
  1.2 背景和意义  11-12
  1.3 本文研究内容  12-14
第2章 信息检索相关技术  14-21
  2.1 信息检索  14-16
    2.1.1 信息检索简价  14
    2.1.2 信息检索原理  14-16
  2.2 搜索技术  16-21
    2.2.1 Lucene技术  16-17
    2.2.2 Nutch技术  17-19
    2.2.3 Heritrix技术  19-21
第3章 新闻分析整体构架  21-27
  3.1 新闻分析的系统结构  21-23
    3.1.1 信息搜集  21-22
    3.1.2 新闻预处理  22-23
    3.1.3 查询、分发功能  23
  3.2 新闻服务器的系统设计  23-26
    3.2.1 数据源获取  24-25
    3.2.2 建立索引  25
    3.2.3 功能实现  25-26
  3.3 系统设计的目标  26-27
第4章 新闻分析引擎的设计  27-51
  4.1 数据集  27-30
    4.1.1 外汇新闻网站结构分析  27-28
    4.1.2 Heritrix工作流程图  28-29
    4.1.3 数据集存储结构  29-30
  4.2 新闻内容分析  30-38
    4.2.1 新闻分析功能需求  30-31
    4.2.2 新闻分析实现原理  31-32
    4.2.3 新闻分析系统结构  32-34
    4.2.4 新闻分析流程设计  34-36
    4.2.5 新闻内容文本分词算法  36-37
    4.2.6 新闻内容文本分词流程  37-38
  4.3 新闻搜索  38-44
    4.3.1 新闻索引功能需求  39-40
    4.3.2 新闻索引的实现原理  40-41
    4.3.3 新闻索引流程设计  41-42
    4.3.4 新闻检索技术分析  42-43
    4.3.5 新闻检索功能需求  43
    4.3.6 新闻检索程序设计  43-44
  4.4 新闻转发  44-45
    4.4.1 新闻搜索及转发功能需求  44-45
  4.5 关键类设计  45-49
  4.6 数据库设计  49-51
第5章 新闻分析引擎的实现与技术难点  51-67
  5.1 系统架构  51
    5.1.1 服务器设计图  51
  5.2 Server实现  51-62
    5.2.1 新闻抓取模块  51-53
    5.2.2 lucene的配置及使用  53-54
    5.2.3 新闻分析模块  54-56
    5.2.4 新闻搜索处理模块  56-59
    5.2.5 新闻转发模块  59-60
    5.2.6 用户登录模块  60-62
  5.3 TCP数据传输格式  62-63
    5.3.1 用户登录信息  62
    5.3.2 搜索内容  62
    5.3.3 新闻搜索返回  62-63
  5.4 Client实现  63-67
    5.4.1 Client登录模块  63
    5.4.2 Client主界面  63-65
    5.4.3 Client与服务器通信模块  65-67
第6章 总结与展望  67-69
  6.1 本文总结  67
  6.2 展望下一步工作  67-69
参考文献  69-72
致谢  72

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 面向海量邮件的检索系统研究与实现,TP393.098
  3. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  4. 构件垂直搜索引擎的关键技术研究,TP391.3
  5. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  6. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  7. J2EE集成开发框架及其应用,TP311.52
  8. 基于用户兴趣模型的个性化搜索引擎研究与分析,TP391.3
  9. 软件安全领域垂直搜索引擎的优化设计与实现,TP391.3
  10. 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
  11. 基于查询扩展的垂直搜索研究,TP391.3
  12. 文本聚类在话题检测与人名消歧中的应用研究,TP391.1
  13. 垂直搜索引擎技术的研究及实现,TP391.3
  14. 面向农业领域的垂直搜索技术的研究,TP391.3
  15. 面向领域的语义检索研究,TP391.3
  16. 深度网爬虫及更新策略研究,TP391.3
  17. 基于术语相似度的贝叶斯网络检索模型扩展研究,TP391.3
  18. 信息检索中迁移Markov网络模型的研究,TP391.3
  19. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  20. 基于查询词聚类的信息检索系统排序模型,TP391.3
  21. 基于垂直搜索及语义标注的安全缺陷库更新方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com