学位论文 > 优秀研究生学位论文题录展示

基于协同过滤和文本相似度的标签推荐及搜索优化

作 者: 王传豹
导 师: 袁方
学 校: 河北大学
专 业: 计算机软件与理论
关键词: 标注系统 标签 标签推荐 网页 搜索优化
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 110次
引 用: 0次
阅 读: 论文下载
 

内容摘要


当前,社会标注系统成为研究的热点,在该系统中用户可以为自己所上传的资源自由的添加标签。由于每个用户的知识背景不同,造成了很多标签不能较好的描述标注资源的内容,甚至有些标签拼写错误,阻碍了其他用户搜索资源。标签推荐的准确性是社会标注系统顺利推广的重要环节。在社会标注系统中,用户标注的标签很多不能较好的描述资源内容,影响了资源共享和分类,也不利于标注系统的更好推广。此外,搜索资源时用户使用的检索词过于模糊,传统的关键词匹配法不能满足用户需求。为此,本文提出了一种基于协同过滤和文本相似度的标签推荐及搜索优化方法。对于用户要标注的网页,计算该网页被标注的次数。如果超过指定阈值,使用协同过滤方法,查找相似用户,将相似用户中标注的标签总权重较大的推荐给用户,否则,使用文本相似度公式计算相似的网页,将其标注的标签总权重较大的推荐给用户。但是直接使用余弦相似度公式,不能较好解决标注问题。本文在相似网页计算过程中对余弦相似度公式进行了改进,考虑了每个单词权重和每个网页的权重。使用改进的余弦相似度计算相似的网页,能较好的解决上述问题。最后,本文分析了标签在网页搜索优化中所起的作用。查询词不在网页中时,使用传统的方法不能得到较好的效果。为此,本文对查找目标网页的公式进行了改进,利用了标签具有的社会特性。同时考虑了标签标注服从幂律分布的特点,使用取对数的方法减少了计算误差。实验表明,与已有标签推荐算法相比,本文提出的算法提高了标签推荐的准确率。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-15
  1.1 研究背景  9-10
  1.2 研究现状  10-12
  1.3 研究目的和意义  12
  1.4 主要研究内容和论文组织结构  12-14
    1.4.1 主要研究内容  12-13
    1.4.2 论文组织结构  13-14
  1.5 本章小结  14-15
第2章 相关知识介绍  15-23
  2.1 HTML语言  15-16
    2.1.1 HTML概念  15
    2.1.2 HTML文件架构  15-16
  2.2 文本相似度计算  16-17
  2.3 Porter Stemming 算法  17-18
    2.3.1 Porter Stemming 算法概念  17
    2.3.2 Porter Stemming 算法步骤  17-18
  2.4 协同过滤推荐算法  18-19
    2.4.1 协同过滤推荐算法的基本思想及特性  18-19
    2.4.2 基于用户的协同过滤算法  19
  2.5 Gini系数  19-20
  2.6 正则表达式  20-22
  2.7 本章小结  22-23
第3章 基于协同过滤和文本相似度的标签推荐  23-29
  3.1 现有的标签推荐算法存在的问题  23
  3.2 改进的标签推荐算法  23-27
    3.2.1 基于协同过滤的标签推荐  24-25
    3.2.2 基于改进文本相似度的标签推荐  25-27
  3.3 改进的标签推荐算法描述  27-28
  3.4 本章小结  28-29
第4章 基于标签的网页搜索优化  29-33
  4.1 标签的特性  29-30
  4.2 目前网页搜索优化方法  30
  4.3 使用标签优化网页搜索  30-32
  4.4 本章小结  32-33
第5章 实验与分析  33-39
  5.1 实验设计  33-34
  5.2 实验结果及分析  34-38
  5.3 本章小结  38-39
第6章 总结与展望  39-41
  6.1 全文总结  39
  6.2 工作展望  39-41
参考文献  41-43
致谢  43-44
攻读学位期间取得的科研成果  44

相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 溶藻弧菌诱导红笛鲷仔鱼差减文库的构建及其表达序列标签分析,S943
  3. 基于HTTP的智能家居网络改进方案,TP273.5
  4. 小麦miRNA及花器官特异表达基因的鉴定与分析,S512.1
  5. 小麦基因电子表达分析平台的构建及相对于水稻的小麦特异基因的鉴定,S512.1
  6. Delicious中文标签与汉语主题词表的结合研究,G254.2
  7. 网络搜索引擎的相关技术研究,G354
  8. 香雪兰查尔酮合酶基因的克隆及其原核表达,Q943.2
  9. 网页设计元素解析与探究,TP393.092
  10. 1BL.1RS易位及条锈病抗性品种基因差异表达分析和生理参数变化研究,S512.1
  11. 藏文新闻网页新词语调查研究,H214
  12. 论搜索引擎提供“快照”服务之违法性,D923.41
  13. 概率XML文档中Holistic Twig查询处理算法的研究与实现,TP311.13
  14. 基于Web Services的电子警察系统设计与实现,TP311.52
  15. 基于SRR结构的RFID技术研究与应用,TP391.44
  16. 基于集成节点的互连网络的控制平面技术研究,TN929.1
  17. 基于GMPLS的光突发交换光网络及其关键技术的研究,TN929.1
  18. 面向汽车行业的主题爬虫研究与实现,TP391.3
  19. 浏览器的安全访问及指纹识别技术,TP393.092
  20. 嵌入式浏览器网页排版技术研究与实现,TP393.092
  21. 基于RFID的飞机维修工具管理系统的设计,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com