学位论文 > 优秀研究生学位论文题录展示

基于时效性的垂直搜索引擎的设计与实现

作 者: 李瑞
导 师: 钱丽萍
学 校: 北京建筑工程学院
专 业: 控制理论与控制工程
关键词: 信息检索 搜索引擎 时间信息 未登录词识别 向量空间模型
分类号: TP391.3
类 型: 硕士论文
年 份: 2012年
下 载: 18次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,互联网的飞速发展使信息呈现爆炸式增长,这让用户准确及时地获取所需信息变得愈加困难,搜索引擎的出现在一定程度上缓解了这种危机。后来面向特定领域的垂直搜索引擎出现,它提供给用户面向特定领域的个性化信息搜索服务,弥补了通用搜索引擎主题较宽泛的缺点,使搜索结果更有针对性,同时也提高了用户对查询结果的满意度。时间信息在自然语言中有着非常重要作用,它可以定位事件发生的先后顺序。据统计时间信息占全部文本信息的27%,仅次于31%的专有名词。因此本文对如何在垂直搜索引擎中引入时间信息因素进行了研究。本文首先对网页文本中时间表达式的识别和规范化进行了深入研究,然后提出一种以文档中的时间为分量的文档时间向量表达方式和以时间为索引项的倒排索引结构,最后在以上方法的基础上完成了一个能够根据网页文本内容中的时间信息进行查询的垂直搜索引擎。本文的主要工作如下:1.对搜索引擎的发展历程及现状进行了阐述,介绍了搜索引擎的工作原理、基本架构和搜集器、预处理器及检索器等核心技术。2.分析了垂直搜索引擎产生的必然性及其与通用搜索在效果和技术实现上的区别。3.参考TIMEX2规范对时间表达式进行分类,并给出了规则模板和时间词典相结合的时间表达式识别方法,然后探讨了把已识别出的时间表达式规范化的方法。4.本系统是面向旅游领域的垂直搜索,故提出了一种基于规则的识别未登录中文地名实体的方法,经实验其召回率达90%以上。5.基于空间向量模型(VSM)提出了以时间为分量的文档时间向量表示方法和以时间为索引项的倒排索引的构建方法,还对时间向量相似性的计算方法进行了定义,最后给出了根据时间向量相似性对文档进行排序的算法和查询规则。6.在以上理论及算法的基础上,设计并实现了一个基于时效性的垂直搜索引擎原型,并对该系统的系统架构及各功能模块的具体实现进行了详细介绍。

全文目录


摘要  3-4
Abstract  4-7
第1章 绪论  7-12
  1.1 研究背景及意义  7-8
  1.2 国内外研究现状  8-11
    1.2.1 搜索引擎技术  8-9
    1.2.2 垂直搜索引擎技术  9-10
    1.2.3 时效性信息技术  10-11
  1.3 本文主要工作  11-12
第2章 国内外相关工作  12-28
  2.1 搜索引擎  12-22
    2.1.1 信息采集模块  13-16
    2.1.2 文本处理  16-18
    2.1.3 网页排序  18-20
    2.1.4 垂直搜索  20-22
  2.2 时效性信息的研究  22-25
    2.2.1 中英文时间信息的研究  22-23
    2.2.2 TERN 任务、时间信息的定义与类型  23-24
    2.2.3 时间信息检索现状  24-25
  2.3 未登录词汇的识别  25-27
  2.4 本章小结  27-28
第3章 时间短语的识别  28-41
  3.1 时间短语的分类  28-29
  3.2 时间短语的识别  29-32
  3.3 时间短语的规范化  32-36
    3.3.1 绝对时间和相对时间的规范化  33-35
    3.3.2 实验结果分析  35-36
  3.4 中文地名识别  36-40
    3.4.1 中文地名特点  36
    3.4.2 系统设计及算法描述  36-39
    3.4.3 试验结果  39-40
    3.4.4 结论  40
  3.5 本章小结  40-41
第4章 时效性信息检索模型  41-48
  4.1 常用检索模型  41-44
    4.1.1 布尔(Boolean)模型  41-42
    4.1.2 概率模型  42
    4.1.3 向量空间模型  42-44
  4.2 基于时效性的检索模型  44-47
    4.2.1 时间向量空间的表示及时间相关性计算  44-46
    4.2.2 查询算法  46-47
  4.3 本章小结  47-48
第5章 系统的设计与实现  48-56
  5.1 系统的设计思想与架构  48-49
  5.2 系统的模块设计  49-55
    5.2.1 采集模块  49-50
    5.2.2 文本预处理模块  50-51
    5.2.3 索引创建模块  51-53
    5.2.4 信息查询模块  53-55
  5.3 本章小结  55-56
第6章 总结与展望  56-58
  6.1 论文工作总结  56
  6.2 展望  56-58
参考文献  58-61
致谢  61-62
在读期间发表的学术论文  62

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 基于停用词处理的汉语语音检索方法,TP391.1
  3. 面向海量邮件的检索系统研究与实现,TP393.098
  4. 基于SVM分类算法的主题爬虫研究,TP391.3
  5. 网络搜索引擎的相关技术研究,G354
  6. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  7. 基于Web的未登录词翻译技术研究,TP391.2
  8. 基于社会网络分析的藏文web链接结构研究,TP393.09
  9. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  10. 基于语义网络的智能搜索引擎研究,TP391.3
  11. 英汉可比较语料库的构建与应用研究,TP391.1
  12. 基于BP网络的元搜索引擎研究,TP391.3
  13. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  14. 外文数据库无障碍信息检索的策略研究,G354
  15. 基于因特网的动态规范词表的系统构建研究,G354
  16. Deep Web接口集成及查询结果排序方法研究,TP274
  17. 基于Struts2框架的安全教育管理信息系统研究,TP311.52
  18. 企业搜索引擎营销研究,TP391.3
  19. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  20. 搜索引擎商标侵权及责任认定,D923.43
  21. 垂直搜索引擎关键技术的研究与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com