学位论文 > 优秀研究生学位论文题录展示
基于标签与内容的blog检索实验系统研究与实现
作 者: 宋洪鑫
导 师: 胡舜耕
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 博客搜索 标签推荐 语义相似度 主题词提取 大众分类
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 82次
引 用: 0次
阅 读: 论文下载
内容摘要
随着web2.0中文网站发展逐渐成熟,给用户在网上提供了一个信息交互、共享和共建的平台,以致互联网上的信息量急剧增加。而搜索引擎成为人们利用在这浩瀚的信息海洋中打捞信息的同时,人们对搜索引擎获取信息的要求更一步的提高了。搜索引擎的个性化、专业化、实时化和智能化已经成为搜索引擎技术发展的趋势。标签是web2.0的特色元素之一,是用户在数字资源上标记的关键字,是一种常用的组织和发现资源的方法。因此blog标签对于blog搜索引擎来说也是一个非常值得利用的因素。本文首先分析了中文blog网站标签的标注情况,包括标签分类、热门标签、命名实体、网络流行语等,在此基础上总结了一些标签标注的规范,并提出了一种基于分类和主题词提取的标签推荐模型,目的在于帮助blog用户能够更准确的通过标签来描述自己的资源,以及在blog搜索中发挥更好的作用。本文本着大众分类的思想,在del.icio.us收集了测试语料,分别根据用户和大众两个标注主体,对该模型的有效性进行了评测,初步实验结果表明在标签推荐的召回率方面,该推荐模型具有很好的表现,进而证明了该模型的有效性。其次,本文研究了搜索引擎的工作原理以及相关技术,从网路爬虫技术抓取网页,解析网页,到建立索引技术,再到搜索算法技术等。最后在深入研究的基础上,充分利用自然语言处理技术,设计并实现了基于标签与blog内容的综合搜索引擎实验系统。并对实验结果进行了分析,证明了算法的有效性。进一步说明了标签在blog搜索中的重要作用,利用标签这一资源,能更好的满足用户的搜索需求。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-17 1.1 引言 9 1.2 研究背景 9-11 1.2.1 blog的自身特点 9-10 1.2.2 blog搜索与传统搜索引擎的区别 10-11 1.3 国内外blog搜索引擎成果及进展 11-15 1.3.1 国内blog搜索引擎基本状况 11-12 1.3.2 国外blog搜索引擎基本状况 12-13 1.3.3 国内外blog搜索相关理论的研究成果 13-15 1.4 本文的主要工作 15-16 1.5 论文的研究内容及结构 16-17 第二章 搜索引擎系统介绍 17-27 2.1 搜索引擎的概念 17-18 2.2 搜索引擎的发展历程与未来方向 18-20 2.3 搜索引擎的分类介绍 20-21 2.4 搜索引擎的工作原理 21-25 2.4.1 信息搜集模块 22-23 2.4.2 索引器模块 23 2.4.3 检索器模块 23-25 2.4.4 用户检索接口模块 25 2.5 搜索引擎的评价标准 25-26 2.6 本章小结 26-27 第三章 相关技术研究 27-42 3.1 Heritrix综述 27-32 3.1.1 Heritrix特点 27 3.1.2 Heritrix的体系结构 27-29 3.1.3 Heritrix的使用介绍 29-32 3.2 网页解析介绍 32-35 3.2.1 HTMLParser特点和基本功能 33 3.2.2 HTMLParser技术介绍 33-35 3.3 索引结构介绍 35-37 3.3.1 排索引结构 35-36 3.3.2 倒排索引结构 36-37 3.4 语义相似度计算 37-41 3.4.1 语义相似度概念 37-38 3.4.2 基于知网(Hownet)的语义相似度计算 38-41 3.5 本章小结 41-42 第四章 博客标签的调查与推荐研究 42-52 4.1 标签的发展和研究现状 42-43 4.2 中文标签标注情况的具体分析 43-47 4.2.1 中文各个博客网站标签的"贴标率"分析 43-44 4.2.2 新浪网站博客的标签分析 44-47 4.2.3 新浪博客搜索标签分析 47 4.2.4 标签标注规范总结 47 4.3 基于分类和主题词提取的标签推荐系统 47-51 4.3.1 标签推荐系统架构图 48 4.3.2 标签推荐系统功能模块 48-49 4.3.3 标签推荐系统实现 49-50 4.3.4 实验结果与分析 50-51 4.4 本章小结 51-52 第五章 blog搜索系统设计与实现 52-67 5.1 系统设计思想 52 5.2 系统的框架结构 52-54 5.3 网页获取模块介绍 54-57 5.3.1 抓取种子分析 55 5.3.2 开发所需的定制类 55-57 5.3.3 实现爬取 57 5.4 网页解析模块介绍 57-60 5.4.1 blog网页结构分析 58-59 5.4.2 HTMLParser具体实现 59-60 5.5 索引结构模块设计 60-63 5.5.1 建立索引流程 60-61 5.5.2 正排索引结构的建立 61-62 5.5.3 倒排索引结构的建立 62-63 5.6 检索算法模块设计 63-66 5.6.1 基于内容的检索 64-65 5.6.2 基于标签与内容的综合检索 65-66 5.7 本章小结 66-67 第六章 实验与分析 67-72 6.1 系统的开发环境 67 6.2 实验数据集 67-68 6.3 系统搜索效果 68-69 6.3.1 查询界面 68-69 6.3.2 查询效果 69 6.4 结果分析 69-71 6.5 本章小结 71-72 第七章 总结与展望 72-74 7.1 工作总结 72-73 7.2 下一步工作 73-74 参考文献 74-79 致谢 79-80 作者攻读学位期间发表的学术论文目录 80
|
相似论文
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 基于SCOT的语义标签推荐模型及算法研究,TP391.3
- 基于社会标签系统的推荐技术研究,TP391.3
- 社会标签推荐张量分解方法研究,TP393.09
- 金融领域的博客信息采集与排序算法研究,TP393.092
- 基于语义的访问控制技术在信息整合中的研究,TP393.08
- 机械零部件本体构建与集成关键技术研究,TH13
- 基于本体的构件测试信息语义检索方法的研究与实现,TP311.52
- 基于SAWSDL的语义Web服务发现方法研究,TP393.09
- 基于语义网的博客搜索系统研究,TP391.3
- 基于本体的个性化元搜索技术的研究和实现,TP391.3
- 博客检索的关键技术研究,TP391.3
- 问答式社区的标签推荐技术研究,TP391.1
- 基于本体的网页语义计算方法研究与实现,TP391.1
- 中文意见挖掘中的特征词提取以及情感倾向分析,TP391.1
- 基于情感标签的音乐检索算法研究,TP391.3
- 面向盲人的图片自动描述系统的研究与实现,TP393.092
- 基于社会化标签的个性化推荐系统研究,G201
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|