学位论文 > 优秀研究生学位论文题录展示

基于垂直搜索技术的竞争情报采集系统的设计与实现

作 者: 王晶
导 师: 李治柱;钱飞他
学 校: 上海交通大学
专 业: 软件工程
关键词: 垂直搜索引擎 网络爬虫 采集 竞争情报 设计
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 152次
引 用: 0次
阅 读: 论文下载
 

内容摘要


本文介绍了上海市化工科学技术情报研究所开发建设的基于垂直搜索技术的竞争情报采集系统的设计与实现过程。首先,本文简要介绍了论文研究的背景和课题来源,通过介绍国内外竞争情报分析软件或平台的现状,说明了竞争情报采集系统的特点——具有搜索引擎与检索对接的特点。上海市化工科学技术情报研究所长期承担了行业情报信息的研究和发布工作,开发建设本系统具有积极的应用价值。针对市场上的同类产品存在的不足情况,在研究目标中提出了五个方面的改进设想。其次,本文详细介绍了通用搜索引擎的工作原理,搜索引擎实现的主要功能模块,为本文后续章节的论述提供了理论依据。随后,本文通过通用搜索引擎与垂直搜索引擎的比较,说明了垂直搜索引擎比通用搜索引擎具有“专、精、深”的特点,是特定行业领域、专业信息机构等开展网络信息资源开发和服务的应用工具。本文还分别介绍了对于实现垂直搜索引擎的关键技术,这些知识的介绍为设计和实现行业竞争情报采集系统具有明显的针对性,是后续章节的总纲。最后,重点介绍了基于垂直搜索技术的竞争情报采集系统的设计和实现过程。从词表库的建立、信息和数据的采集、信息检索和用户界面设计模块逐一做了论述,其中信息和数据的采集模块和信息检索模块是本文的论述重点。信息和数据的采集模块中介绍了人工信息和数据的录入,网页信息和数据自动采集中的“蜘蛛”程序编写;信息检索模块中重点介绍了搜索引擎倒排序技术的实现,而对于本文数据统计与分析和后台数据库管理模块本文作了略述。本系统建设和实现过程中,并不一味的追求理论过程中每一步过程,而是结合本系统的硬件环境和信息采集特点,提出了工作中的创新点,有选择的将几个功能进行合并操作。如在网络信息的自动采集过程中,将信息采集和页面抽取、词性标注等合并在同一段程序中实现,压缩了信息采集和识别的时间,节省了服务器的开销。本系统的设计与实现是上海市化工科学技术情报研究所竞争情报分析平台的重要组成部分,为今后进一步开展基于人工智能技术的竞争情报分析系统的开发做了前期研究,为后期系统开发积累了更多的经验和体会。

全文目录


摘要  3-5
ABSTRACT  5-9
1 绪论  9-15
  1.1 论文研究的背景  9-10
  1.2 国内外发展现状  10-13
    1.2.1 国外竞争情报软件发展现状  10-11
    1.2.2 国内竞争情报软件发展现状  11-13
  1.3 研究目标和意义  13-14
  1.4 主要研究内容  14
  1.5 论文的章节结构  14-15
2 相关知识概论  15-25
  2.1 通用搜索引擎基本原理  15-16
  2.2 垂直搜索引擎特点  16-18
  2.3 垂直搜索引擎关键技术  18-24
    2.3.1 搜索策略  18
    2.3.2 页面分析技术  18-19
    2.3.3 超链接分析技术  19-20
    2.3.4 网页信息的结构化抽取  20-22
    2.3.5 页面与主题相关度的判定  22-24
  2.4 本章小结  24-25
3 基于垂直搜索技术的竞争情报采集系统的需求分析  25-30
  3.1 建设目标  25
  3.2 建设内容  25-26
  3.3 需求分析  26-27
  3.4 功能模块需求分析  27-29
  3.5 本章小结  29-30
4 基于垂直搜索技术的竞争情报采集系统的总体设计  30-41
  4.1 系统总体设计  30-31
  4.2 系统功能设计  31-40
    4.2.1 网页信息和数据的自动抓取  32-38
    4.2.2 索引器的设计  38-39
    4.2.3 检索器的设计  39-40
  4.3 本章小结  40-41
5 基于垂直搜索技术的竞争情报采集系统的实现  41-63
  5.1 词表的建立  41-42
  5.2 信息数据的采集  42-50
    5.2.1 信息数据的人工录入  42-43
    5.2.2 网页信息和数据的自动采集  43-50
  5.3 信息检索  50-52
  5.4 用户界面  52-58
  5.5 数据统计与分析  58-59
  5.6 后台数据的管理  59-60
  5.7 系统性能测试  60-62
  5.8 本章小结  62-63
6 总结与展望  63-65
  6.1 本文总结  63
  6.2 今后展望  63-65
参考文献  65-68
附录  68-78
致谢  78-79
攻读学位期间发表的学术论文目录  79-82
附件  82

相似论文

  1. 基于WinCE平台的故障分析仪应用程序设计与开发,TP311.52
  2. LNG系统中工作压力设定依据与换热器正交试验设计,TQ051.5
  3. 混粉电火花成型机主机系统及工艺试验的研究,TG661
  4. 纳米稀土硬质合金YG11R的成分与工艺优化及磨损研究,TG135.5
  5. 基于消费者情感需求的女性内衣设计研究,TS941.713.3
  6. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  7. 光探针测量系统中瞄准信号的检测与处理的研究,TH74
  8. 半球谐振陀螺误差分析与测试方法设计,V241.5
  9. 金属蜂窝与再生冷却通道的传热特性研究,V215.4
  10. 涡轮S2流面正问题气动优化设计研究,V235.11
  11. 中国城市地铁站声环境设计策略研究,U231.4
  12. 基于LAH032.905标准的汽车点火线圈终检系统研究,U472.9
  13. 金源文化影响下的阿城街区建筑改造设计研究,TU984.114
  14. 科技博物馆建筑设计研究,TU242.5
  15. 万科模式的居住小区设计研究,TU984.12
  16. 我国当代总体城市设计实证研究,TU984
  17. 哈尔滨市道外区滨江开放空间设计研究,TU984.113
  18. 体育场馆国际设计竞赛创作理念研究,TU245.2
  19. 当代品牌展销店建筑设计研究,TU247
  20. 哈尔滨城市空间环境视觉导识系统研究,TU998.9
  21. 现代广场景观中的理水研究,TU986.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com