学位论文 > 优秀研究生学位论文题录展示

垂直搜索技术在社交网站中的应用与研究

作 者: 曾铭
导 师: 俞俊生
学 校: 北京邮电大学
专 业: 电子科学与技术
关键词: 社交网站 垂直搜索 特征提取 HITS 结果聚类 信息推送
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 34次
引 用: 0次
阅 读: 论文下载
 

内容摘要


网络快速发展的今天,社交网站逐渐渗透到了人们的生活中,尤其近些年来移动互联网日渐风行,而各种社交应用连通了传统网络与移动平台,使得越来越多的资源可以在网络上进行分享流通,信息量急剧增长。社交网络中巨大的信息量在给用户提供海量资源分享的同时也让用户有了信息选择的困难。一般用户很难从自己的众多网络关联中获取到自己真正感兴趣的信息。与此同时,垂直搜索技术得到越来越多的专业用户的青睐,其在各种领域内的应用得到广泛研究。本文将垂直搜索技术应用到社交网站中来帮助用户获取其感兴趣的信息。文章首先对垂直搜索系统中的关键技术作了研究,对聚焦爬虫、搜索结果聚类及半结构化信息抽取的关键算法作出研究并提出针对社交网站网页的性能改进方案。针对传统特征提取方法不适用于社交网站网页的问题,本文中提出一种改进的特征提取方法,综合MI互信息法和x2统计法两种算法在高低频词条上的不同作用性能,同时引入类内词频因素及词条位置因素,提升了特征提取的效果。HITS算法在分析社交网站网页的链接时,存在一系列不合理性,本文在深入研究该算法后在互加强关系的计算及主题保持两方面提出改进方案,聚焦使用改进后的HITS算法指导其抓取策略时,在社交网站网页的抓取方面的性能得到明显改善。另外,本文在搜索结果聚类及半结构化信息抽取方面基于传统算法提出了改进方案。基于K-means算法提出的基于文本平均相似度的聚类算法使得聚类过程对噪音点的抵抗能力得到增强,也使得选择出来的类中心点具有更好的代表性。依据社交网站网页特性提出的单页多记录信息抽取方案支持使用AJAX技术的网页信息抽取。在这两方面的改进经过实验验证,均对垂直搜索应用到社交网站中的性能有很大提升。最后本文设计了党史教育交流平台——铺路石微博并将文中研究开发的垂直搜索系统集成到微博中,向用户进行站外信息的定向推送,集成测试测试表明此垂直搜索系统在网站中的应用效果良好,很好的满足了用户的信息个性化需求。

全文目录


摘要  4-6
ABSTRACT  6-8
目录  8-10
第一章 绪论  10-14
  1.1 研究背景  10
  1.2 社交网站  10-11
  1.3 垂直搜索技术  11-12
    1.3.1 垂直搜索  11-12
    1.3.2 垂直搜索技术的发展现状  12
  1.4 研究内容及论文结构  12-14
第二章 相关技术研究  14-29
  2.1 聚焦爬虫技术  14-23
    2.1.1 聚焦爬虫工作流程  14
    2.1.2 聚焦爬虫搜索策略  14-16
    2.1.3 主题网页链接分析  16-20
    2.1.4 网页主题判定模型  20-22
    2.1.5 向量空间模型中的特征提取  22-23
  2.2 搜索结果聚类  23-25
  2.3 半结构化信息抽取  25-28
    2.3.1 半结构化文本  25-26
    2.3.2 现有网页信息抽取技术  26-28
  2.4 本章小结  28-29
第三章 垂直搜索算法优化  29-39
  3.1 链接分析的改进-ZHITS  29-33
    3.1.1 HITS算法的过程  29-31
    3.1.2 针对社交网站网页的分析算法-ZHITS  31-33
  3.2 特征提取方法的改进  33-35
    3.2.1 传统提取方法  33-34
    3.2.2 针对社交网站网页的特征提取方法  34-35
  3.3 聚类算法改进  35-38
    3.3.1 K-means算法分析  35-37
    3.3.2 改进的K-means算法  37-38
  3.4 本章小结  38-39
第四章 系统模块设计与实现  39-51
  4.1 基于Heritrix的聚焦爬虫设计  39-44
    4.1.1 Heritrix  39-40
    4.1.2 主题模块的扩展  40-41
    4.1.3 爬虫系统设计  41-42
    4.1.4 聚焦爬虫的性能标准  42-43
    4.1.5 爬虫性能实验  43-44
  4.2 结果聚类模块实现  44-47
    4.2.1 改进的K-means算法实现  44-45
    4.2.2 聚类结果评价标准  45-46
    4.2.3 实验分析  46-47
  4.3 信息抽取模块设计  47-50
    4.3.1 支持AJAX的单页多记录信息抽取  47-48
    4.3.2 实验分析  48-50
  4.4 本章小结  50-51
第五章 社交网站后台设计及搜索集成  51-59
  5.1 铺路石微博功能需求分析  51
  5.2 建站使用技术  51-53
  5.3 后台框架设计及搜索推送集成  53-54
  5.4 集成效果测验  54-59
第六章 总结与展望  59-60
参考文献  60-62
致谢  62-63
攻读学位期间发表的学术论文目录  63

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  4. Q学习在基于内容图像检索技术中的应用,TP391.41
  5. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  6. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  7. 空间交会接近视觉测量方法研究,TP391.41
  8. 图像实时采集、存储与处理方法研究,TP391.41
  9. 唇读中的特征提取、选择与融合,TP391.41
  10. 多币种纸币处理技术的研究与实现,TP391.41
  11. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 移动机器人视觉检测和跟踪研究,TP242.62
  14. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  15. 基于随机森林的植物抗性基因识别方法研究,Q943
  16. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  17. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  18. 基于SVM分类算法的主题爬虫研究,TP391.3
  19. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  20. 红外图像目标识别及跟踪技术研究,TP391.41
  21. 水下目标特征的压缩与融合技术研究,TN911.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com