学位论文 > 优秀研究生学位论文题录展示

基于标签与内容的blog检索实验系统研究与实现

作 者: 宋洪鑫
导 师: 胡舜耕
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 博客搜索 标签推荐 语义相似度 主题词提取 大众分类
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 82次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着web2.0中文网站发展逐渐成熟,给用户在网上提供了一个信息交互、共享和共建的平台,以致互联网上的信息量急剧增加。而搜索引擎成为人们利用在这浩瀚的信息海洋中打捞信息的同时,人们对搜索引擎获取信息的要求更一步的提高了。搜索引擎的个性化、专业化、实时化和智能化已经成为搜索引擎技术发展的趋势。标签是web2.0的特色元素之一,是用户在数字资源上标记的关键字,是一种常用的组织和发现资源的方法。因此blog标签对于blog搜索引擎来说也是一个非常值得利用的因素。本文首先分析了中文blog网站标签的标注情况,包括标签分类、热门标签、命名实体、网络流行语等,在此基础上总结了一些标签标注的规范,并提出了一种基于分类和主题词提取标签推荐模型,目的在于帮助blog用户能够更准确的通过标签来描述自己的资源,以及在blog搜索中发挥更好的作用。本文本着大众分类的思想,在del.icio.us收集了测试语料,分别根据用户和大众两个标注主体,对该模型的有效性进行了评测,初步实验结果表明在标签推荐的召回率方面,该推荐模型具有很好的表现,进而证明了该模型的有效性。其次,本文研究了搜索引擎的工作原理以及相关技术,从网路爬虫技术抓取网页,解析网页,到建立索引技术,再到搜索算法技术等。最后在深入研究的基础上,充分利用自然语言处理技术,设计并实现了基于标签与blog内容的综合搜索引擎实验系统。并对实验结果进行了分析,证明了算法的有效性。进一步说明了标签在blog搜索中的重要作用,利用标签这一资源,能更好的满足用户的搜索需求。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-17
  1.1 引言  9
  1.2 研究背景  9-11
    1.2.1 blog的自身特点  9-10
    1.2.2 blog搜索与传统搜索引擎的区别  10-11
  1.3 国内外blog搜索引擎成果及进展  11-15
    1.3.1 国内blog搜索引擎基本状况  11-12
    1.3.2 国外blog搜索引擎基本状况  12-13
    1.3.3 国内外blog搜索相关理论的研究成果  13-15
  1.4 本文的主要工作  15-16
  1.5 论文的研究内容及结构  16-17
第二章 搜索引擎系统介绍  17-27
  2.1 搜索引擎的概念  17-18
  2.2 搜索引擎的发展历程与未来方向  18-20
  2.3 搜索引擎的分类介绍  20-21
  2.4 搜索引擎的工作原理  21-25
    2.4.1 信息搜集模块  22-23
    2.4.2 索引器模块  23
    2.4.3 检索器模块  23-25
    2.4.4 用户检索接口模块  25
  2.5 搜索引擎的评价标准  25-26
  2.6 本章小结  26-27
第三章 相关技术研究  27-42
  3.1 Heritrix综述  27-32
    3.1.1 Heritrix特点  27
    3.1.2 Heritrix的体系结构  27-29
    3.1.3 Heritrix的使用介绍  29-32
  3.2 网页解析介绍  32-35
    3.2.1 HTMLParser特点和基本功能  33
    3.2.2 HTMLParser技术介绍  33-35
  3.3 索引结构介绍  35-37
    3.3.1 排索引结构  35-36
    3.3.2 倒排索引结构  36-37
  3.4 语义相似度计算  37-41
    3.4.1 语义相似度概念  37-38
    3.4.2 基于知网(Hownet)的语义相似度计算  38-41
  3.5 本章小结  41-42
第四章 博客标签的调查与推荐研究  42-52
  4.1 标签的发展和研究现状  42-43
  4.2 中文标签标注情况的具体分析  43-47
    4.2.1 中文各个博客网站标签的"贴标率"分析  43-44
    4.2.2 新浪网站博客的标签分析  44-47
    4.2.3 新浪博客搜索标签分析  47
    4.2.4 标签标注规范总结  47
  4.3 基于分类和主题词提取标签推荐系统  47-51
    4.3.1 标签推荐系统架构图  48
    4.3.2 标签推荐系统功能模块  48-49
    4.3.3 标签推荐系统实现  49-50
    4.3.4 实验结果与分析  50-51
  4.4 本章小结  51-52
第五章 blog搜索系统设计与实现  52-67
  5.1 系统设计思想  52
  5.2 系统的框架结构  52-54
  5.3 网页获取模块介绍  54-57
    5.3.1 抓取种子分析  55
    5.3.2 开发所需的定制类  55-57
    5.3.3 实现爬取  57
  5.4 网页解析模块介绍  57-60
    5.4.1 blog网页结构分析  58-59
    5.4.2 HTMLParser具体实现  59-60
  5.5 索引结构模块设计  60-63
    5.5.1 建立索引流程  60-61
    5.5.2 正排索引结构的建立  61-62
    5.5.3 倒排索引结构的建立  62-63
  5.6 检索算法模块设计  63-66
    5.6.1 基于内容的检索  64-65
    5.6.2 基于标签与内容的综合检索  65-66
  5.7 本章小结  66-67
第六章 实验与分析  67-72
  6.1 系统的开发环境  67
  6.2 实验数据集  67-68
  6.3 系统搜索效果  68-69
    6.3.1 查询界面  68-69
    6.3.2 查询效果  69
  6.4 结果分析  69-71
  6.5 本章小结  71-72
第七章 总结与展望  72-74
  7.1 工作总结  72-73
  7.2 下一步工作  73-74
参考文献  74-79
致谢  79-80
作者攻读学位期间发表的学术论文目录  80

相似论文

  1. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  2. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  3. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  4. 基于SCOT的语义标签推荐模型及算法研究,TP391.3
  5. 基于社会标签系统的推荐技术研究,TP391.3
  6. 社会标签推荐张量分解方法研究,TP393.09
  7. 金融领域的博客信息采集与排序算法研究,TP393.092
  8. 基于语义的访问控制技术在信息整合中的研究,TP393.08
  9. 机械零部件本体构建与集成关键技术研究,TH13
  10. 基于本体的构件测试信息语义检索方法的研究与实现,TP311.52
  11. 基于SAWSDL的语义Web服务发现方法研究,TP393.09
  12. 基于语义网的博客搜索系统研究,TP391.3
  13. 基于本体的个性化元搜索技术的研究和实现,TP391.3
  14. 博客检索的关键技术研究,TP391.3
  15. 问答式社区的标签推荐技术研究,TP391.1
  16. 基于本体的网页语义计算方法研究与实现,TP391.1
  17. 中文意见挖掘中的特征词提取以及情感倾向分析,TP391.1
  18. 基于情感标签的音乐检索算法研究,TP391.3
  19. 面向盲人的图片自动描述系统的研究与实现,TP393.092
  20. 基于社会化标签的个性化推荐系统研究,G201

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com