学位论文 > 优秀研究生学位论文题录展示

基于网页与标签聚类的搜索方法研究

作 者: 李华龙
导 师: 张志强
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: 网页聚类 社会标注 超图谱聚类 搜索系统
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 63次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着Internet技术的不断发展,如何从海量的Web信息中找到用户所关心的信息成为一个关键的研究问题。高效的检索工具对于帮助用户方便地获取有用的信息具有重要意义。本文首先对现有Web2.0下的社会标注系统进行了系统的总结,分析它们的优缺点。其次对目前有关网页及标注聚类的各种主流聚类算法进行了分类整理,分别给出它们的优缺点。提出了将超图谱聚类方法应用到网页及标签聚类中的新构想。该思想是通过超图来表示网页与标签之间的对应关系,并对由此得出的关联矩阵使用谱聚类算法,通过对所得的聚类结果分析整理,并将其返回给用户,达到对Del.icio.us网站搜索功能优化的目的。本文主要是对Del.icio.us网站上已经打过标注的网页及网页所对应的标注进行聚类分析。同时对比了K-means、谱聚类、Ncut及超图谱聚类算法对于网页与标签的聚类结果,实验证明超图谱聚类算法对于带有标签的网页无论是从聚类精度或者与用户查询的相关程度上都要优于其他几种聚类算法。为了研究及对比四种聚类算法对于带有标签的网页的聚类效果,论文设计并编写了一个基于Del.icio.us网站的搜索系统——专门针对于该网站上打过标签的网页。并将超图谱聚类方法应用于该搜索功能中。本文提出的搜索方法返回结果不仅单纯的基于该网页的社会标注,即用户对于网页的看法,同时兼顾了网页的内容与查询词的相关程度,是社会化搜索与传统搜索方法的一个结合。最后采用了多种评价方法来对聚类结果及搜索系统返回的结果进行评估,实验结果表明本文所提出的基于网页与标签聚类的搜索方法能够更好的满足用户对于搜索结果的期望,搜索结果比原来的方法更加贴近于用户的需求。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-13
  1.1 引言  9-10
  1.2 研究的背景及意义  10
  1.3 论文工作  10-12
  1.4 论文的组织及内容安排  12-13
第2章 现有搜索系统的相关技术  13-19
  2.1 主流网页聚类方法  13-16
    2.1.1 基于划分的聚类算法  14
    2.1.2 基于层次的聚类算法  14-15
    2.1.3 基于密度的聚类算法  15-16
    2.1.4 基于谱图的聚类算法  16
  2.2 WEB2.0中的社会标注  16-17
  2.3 社会化搜索  17
  2.4 本章小结  17-19
第3章 基于网页与社会标注聚类的搜索方法  19-42
  3.1 Del.icio.us网站的搜索功能介绍  19-24
  3.2 超图谱聚类算法  24-31
    3.2.1 超图  24-26
    3.2.2 谱聚类算法  26-27
    3.2.3 Ncut算法  27-30
    3.2.4 超图谱聚类算法  30-31
  3.3 特征值的计算方法  31-33
  3.4 基于网页与标签聚类的搜索方法  33-40
    3.4.1 方法的基本步骤  33-34
    3.4.2 预处理  34-35
    3.4.3 标注及网页聚类分析  35
    3.4.4 搜索框架  35-38
    3.4.5 超图谱聚类算法的简单应用  38-40
  3.5 本章小结  40-42
第4章 实验与结果分析  42-59
  4.1 实验环境  42
  4.2 使用工具介绍  42-45
    4.2.1 WordNet  42-43
    4.2.2 HTMLParser  43-44
    4.2.3 JWNL(Java WordNet Library)  44
    4.2.4 Jama矩阵处理包  44-45
  4.3 实验  45-58
    4.3.1 实验数据  45-46
    4.3.2 实验数据预处理  46-47
    4.3.4 查询集  47
    4.3.5 实验结果  47-52
    4.3.6 评价方法  52-58
  4.4 本章小结  58-59
第5章 通过标注聚类对网页集合的影响  59-64
  5.1 聚类精度分析  59-60
  5.2 聚类更新分析  60-61
  5.3 对大量数据聚类  61-63
  5.4 本章小结  63-64
结论  64-65
参考文献  65-69
攻读硕士学位期间发表的论文和取得的科研成果  69-70
致谢  70

相似论文

  1. 基于社会标注的主题分类及排序优化方法研究,TP391.1
  2. 基于社会标签系统的推荐技术研究,TP391.3
  3. 社会标签推荐张量分解方法研究,TP393.09
  4. 社会标注中标签语义分析研究,TP391.1
  5. 深度网络信息爬取关键技术研究与实现,TP393.092
  6. 基于Web信息自动抽取的英语题库生成算法研究,TP393.09
  7. 社会标注系统中用户分析方法研究,TP311.12
  8. 基于WebGIS的五金产业信息搜索系统的设计与实现,TP391.3
  9. 基于本体的村镇空间规划信息搜索方法研究与实现,TU982.29
  10. 面向WEB个性化服务的用户建模技术,TP393.09
  11. 军用汽车红外搜索系统的设计,TN216
  12. GPS搜索系统监测平台的分析与设计,TN967.1
  13. 基于代理的本地化语义信息查询,TP393.08
  14. 基于改进混合聚类技术的用户兴趣智能建模,TP311.13
  15. 图书馆网站的信息构建(IA)研究,G250.7
  16. 基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用,TP393.092
  17. 基于Web挖掘的网站逻辑结构生成系统,TP393.092
  18. 网页在线聚类的研究与实现,TP391.1
  19. 冬季女外套款式的感性分析及应用,TS941.1
  20. 移动Agent技术在Web信息搜索上的研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com