学位论文 > 优秀研究生学位论文题录展示

搜索引擎结果的聚类系统研究

作 者: 奚婷
导 师: 杨燕
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 搜索引擎 聚类系统 Lingo ALingo Lucene
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 48次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着网络信息的急速增长,搜索引擎成为了人们使用最广泛的网络工具。由于现在的搜索引擎返回的结果过于庞大,只是一个线性列表,用户在使用搜索引擎时,往往只浏览前几个文档,经常找不到需要的信息,因此研究人员引入了聚类来改善搜索引擎。由于聚类是一种非监督算法,并且使用十分灵活,所以它成为改善搜索引擎的一个重要工具。本文完成了搜索引擎结果聚类系统,使用了Lingo算法的改进算法ALingo,对以达到能够缩短用户检索时间,更快找到所需信息的目的。本文的主要研究工作如下:在文本聚类中,准确的文本预处理成为了能够提高聚类效果的前提,在本文中,完成了中英文文本预处理,包括去除符号、中文分词处理、英文还原词干以及去除停用词。然后对文档进行特征提取,利用向量空间模型将文本转换成可处理的矩阵,为文档聚类打下良好基础。深入研究Lingo算法,了解其流程以及LSI处理方法,将其与后缀树聚类算法相比较,突出Lingo算法的优越性。研究发现Lingo算法存在无法提取出存在于两个句子中的类标签的缺点,所以本文引入了数据挖掘中的关联规则的算法Apriori算法,对文档进行处理,寻找到文档中的频繁项集,即文档的主题,经过特殊的去重处理,作为搜索建议关键字返回给用户。由于搜索建议关键字是没有句子界限限制的,所以更加能够体现出文档的多主题特性,使用户能够更深入了解文档的主题,方便进行二次搜索,缩短搜索时间。本文完成的搜索引擎聚类系统使用全文搜索引擎Lucene的搜索结果,对其进行聚类,显示在页面上。实验结果表明,本文研究的算法,有利于缩短用户搜索时间,达到预期效果。

全文目录


摘要  6-7
Abstract  7-10
第1章 绪论  10-14
  1.1 课题研究的背景及意义  10-11
    1.1.1 搜索引擎  10
    1.1.2 问题的发现  10-11
  1.2 国内外研究现状  11-12
  1.3 本文的工作与安排  12-14
第2章 数据挖掘与聚类分析概述  14-19
  2.1 数据挖掘  14-16
    2.1.1 数据挖掘概述  14
    2.1.2 数据挖掘的主要技术  14-15
    2.1.3 数据挖掘应用  15-16
    2.1.4 数据挖掘的发展趋势  16
  2.2 聚类分析  16-18
    2.2.1 聚类分析的主要方法  16-17
    2.2.2 文本聚类概述  17-18
  2.3 本章小结  18-19
第3章 搜索引擎结果聚类过程  19-27
  3.1 文档信息处理技术  19-20
  3.2 文本表示模型  20-22
  3.3 TF-IDF文本权重分析  22-23
  3.4 文本聚类算法  23
  3.5 关联规则算法在文本聚类中的应用  23
  3.6 聚类性能评价  23-26
  3.7 本章小结  26-27
第4章 Lingo算法及其改进  27-45
  4.1 Lingo算法简介  27
  4.2 隐式语义索引  27
  4.3 奇异值分解  27-28
  4.4 Lingo算法步骤  28-30
  4.5 Lingo算法实验对比  30-37
    4.5.1 数据集介绍  30-31
    4.5.2 Lingo算法概念测试  31-34
    4.5.3 性能比较  34-37
  4.6 Lingo算法的局限性  37
  4.7 ALingo算法的提出  37-41
    4.7.1 搜索建议关键字  38
    4.7.2 搜索建议关键字发现算法  38-41
  4.8 实验结果  41-44
    4.8.1 实验数据介绍  41
    4.8.2 实验  41-44
  4.9 本章小结  44-45
第5章 搜索引擎结果聚类系统的实现  45-53
  5.1 系统模块介绍  45
  5.2 Lucene搜索引擎  45-47
    5.2.1 Lucene搜索引擎概述  45
    5.2.2 Lucene的系统配置  45-46
    5.2.3 Lucene模块的实现  46-47
  5.3 文本预处理模块  47-48
  5.4 聚类模块  48-49
  5.5 Apriori模块  49-50
  5.6 系统运行效果图  50-52
  5.7 本章小结  52-53
结论与展望  53-54
致谢  54-55
参考文献  55-58
攻读硕士学位期间发表的论文  58

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  3. 基于Web的未登录词翻译技术研究,TP391.2
  4. 基于社会网络分析的藏文web链接结构研究,TP393.09
  5. 基于语义网络的智能搜索引擎研究,TP391.3
  6. 基于BP网络的元搜索引擎研究,TP391.3
  7. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  8. 基于OAI-PMH协议及全文检索技术的图书馆联合目录系统,TP391.3
  9. 基于因特网的动态规范词表的系统构建研究,G354
  10. Deep Web接口集成及查询结果排序方法研究,TP274
  11. 基于Struts2框架的安全教育管理信息系统研究,TP311.52
  12. 企业搜索引擎营销研究,TP391.3
  13. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  14. 搜索引擎商标侵权及责任认定,D923.43
  15. 垂直搜索引擎关键技术的研究与实现,TP311.52
  16. WEB个性化信息采集与管理关键技术研究,TP393.09
  17. 百度搜索引擎营销模式研究,F49
  18. 移动互联网环境下无线垂直搜索引擎的研究与实现,TP391.3
  19. 基于WebGIS和MMS的移动搜索服务系统开发,TP311.52
  20. 大中型会议筹备问题的多目标规划模型构建及分析研究,O221.6
  21. 消防领域搜索引擎系统的设计与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com