学位论文 > 优秀研究生学位论文题录展示

中文互联网视频搜索引擎系统策略研究

作 者: 郭眈
导 师: 陈常嘉
学 校: 北京交通大学
专 业: 通信与信息系统
关键词: 搜索引擎 信息检索 视频搜索引擎 定向抓取 信息抽取 归并排序 性能测量
分类号: TP391.3
类 型: 博士论文
年 份: 2012年
下 载: 342次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网是人类迄今为止发明的最大的信息知识宝库,特别是随着Web2.0时代的到来,互联网的信息贡献者普及到全体上网人群。搜索引擎的出现使得这些海量的信息的价值被真正发掘出来,让所有信息都拥有平等的被发现、获取和应用的机会。互联网上的信息种类由最初的文字、图片越来越向以音频、视频为主的多媒体方向拓展,对视频信息的检索需求也应运而生。继传统搜索引擎技术之后,如何实现高效的、适应大规模且快速增长和更新的视频内容的搜索成为新的研究热点。本论文即是作者于攻读博士学位期间从事中文互联网视频搜索引擎的研究开发工作的总结,这是国内第一个正式公开发布的视频搜索引擎。本论文的研究工作自2006年开始。以国内最大搜索引擎的互联网数据库为基础,第一次对中文互联网的视频数据分布和用户搜索行为日志进行了大规模测量和研究,对中文互联网用户的视频搜索需求进行了充分细致的分析,在对传统搜索引擎的工作原理进行了具体分析和对视频搜索引擎提出具体评估标准之后,得出了传统搜索引擎不能胜任视频搜索引擎工作目标、有必要构建专用的视频搜索引擎的结论。在此基础上,本文提出了视频搜索引擎的架构模型,并指出实现视频搜索引擎的主要核心技术问题,包括面向视频分享网站的定向抓取信息抽取,面向网页视频的挖掘和信息抽取,以及面向视频搜索的检索排序,并针对这些核心技术问题提出相应的算法。进一步,基于这些核心算法构建了国内外第一个基于中文互联网的视频搜索引擎系统,面向公众提供在线视频搜索服务,该引擎已成为国内影响力最大的互联网视频搜索引擎。论文主要工作和创新如下:1)提出了面向视频分享网站的定向抓取的方法,主要解决视频分享网站的视频数据抓取和信息提取问题。在抓取的过程中,提出基于对视频分享网站的网站结构和网页结构进行分类的算法,对不同类型的网页可以采取不同的深度抓取策略,并针对包含视频内容的网页类型应用不同的信息抽取包装器,提取出识别规则,保证对视频分享网站的深度抓取和准确挖掘。2)提出了基于传统搜索引擎的全网网页库中的网页视频进行挖掘和信息抽取的算法。对全网spider系统的URL抓取优先级算法进行了详细分析,提出了用DOM树方法进行网页视频进行信息抽取的方法,保证视频数据抽取的准确性,提升全面性。定向抓取与全网挖掘相结合,为视频搜索提供基本的数据源和文本索引信息,并在覆盖率和准确性之间取得平衡。3)基于对用户视频搜索需求的分析,提出了适合中文视频搜索的归并排序的算法,并提出在线评估实验的方法,确定了算法参数取值,检验了算法的有效性。这种算法综合考虑了视频相关性、视频质量和网站质量,兼顾了用户进行检索时的相关性体验,以及检索后观看视频的播放体验。后续的研究工作进一步表明本文提出的排序算法在线评估方法是一种适应大规模网络应用的算法性能评估方法。4)对基于以上核心技术构建的视频搜索引擎的效果进行了综合评估,从覆盖率、时效性、相关性等方面对视频搜索引擎进行了技术评估,并与后期出现的其它同类搜索引擎服务进行了对比,通过对第三方评测数据的分析,验证了本文的视频搜索引擎技术的相对性能,验证本文设计的算法及策略的有效性,并说明了本文所述视频搜索引擎对中国互联网在线视频行业的发展做出的贡献。

全文目录


致谢  5-6
中文摘要  6-8
ABSTRACT  8-10
序  10-18
1 绪论  18-30
  1.1 引言  18-19
  1.2 视频搜索引擎要解决的新问题  19-23
    1.2.1 更全面的数据收录和更快的数据更新  20-21
    1.2.2 更加精准的网页内容提取技术  21-22
    1.2.3 更加优化的检索排序算法  22-23
  1.3 过去的视频搜索研究成果不能应用于互联网环境  23-26
    1.3.1 基于文件的视频搜索不适用于现代互联网特性  23-24
    1.3.2 基于内容的视频搜索的精准性和性能不足  24-25
    1.3.3 基于文本信息的视频搜索将成为主流技术方向  25-26
  1.4 本论文的主要工作和组织结构  26-28
  1.5 关于本论文算法对比与性能分析的说明  28-30
2 视频搜索引擎核心技术问题的提出  30-62
  2.1 引言  30
  2.2 搜索引擎的架构、原理及评估  30-41
    2.2.1 数据抓取子系统  31-34
    2.2.2 数据索引子系统  34-35
    2.2.3 超链分析子系统  35-36
    2.2.4 内容检索子系统  36-38
    2.2.5 搜索引擎的评估标准  38-40
    2.2.6 视频搜索的系统架构模型  40-41
  2.3 中文互联网视频数据分布的研究  41-55
    2.3.1 网页视频网站的视频数量测量  43-45
    2.3.2 视频分享网站的视频数量测量  45-49
    2.3.3 基于搜索的覆盖率估计算法  49-54
    2.3.4 视频数据分布研究工作小结  54-55
  2.4 视频搜索用户行为的研究  55-60
    2.4.1 用户对视频内容的搜索请求高速增长  55-56
    2.4.2 视频类查询词的特点研究  56-57
    2.4.3 视频类查询的用户点击行为分析  57-60
    2.4.4 用户行为研究小结  60
  2.5 视频搜索引擎的核心技术问题  60-61
  2.6 本章小结  61-62
3 面向视频分享网站的定向抓取算法  62-78
  3.1 引言  62-63
  3.2 基本概念与研究现状  63-64
  3.3 基于视频网站结构的视频网页类型识别算法  64-73
    3.3.1 算法的基本思路  64-67
    3.3.2 网页类型识别PTI算法  67-70
    3.3.3 增量式的网页类型识别IPTI算法  70-73
  3.4 结构化信息抽取的算法  73-76
    3.4.1 包装器归纳算法  73-74
    3.4.2 抽取规则学习算法  74-75
    3.4.3 包装器的应用与维护  75-76
  3.5 定向抓取算法性能评估  76-77
    3.5.1 覆盖率评估  76
    3.5.2 时效性评估  76-77
  3.6 本章小结  77-78
4 面向网页视频的挖掘和信息抽取算法  78-108
  4.1 引言  78-79
  4.2 面向全网spider系统的URL抓取优先级算法  79-100
    4.2.1 Spider的评估标准  80-81
    4.2.2 研究现状  81-82
    4.2.3 URL抓取问题和图搜索问题的描述  82
    4.2.4 图搜索中常用算法  82-84
    4.2.5 基于推荐的图搜索算法  84-88
    4.2.6 基于模型的图搜索算法  88-95
    4.2.7 基于度失配的图搜索算法  95-100
  4.3 网页库中视频播放页面的识别策略  100-102
  4.4 网页视频播放页面的信息抽取算法  102-104
    4.4.1 DOM树建模  103-104
    4.4.2 DOM树搜索算法  104
  4.5 网页视频播放页面识别与抽取算法的评估  104-106
    4.5.1 页面识别的召回率  105
    4.5.2 信息抽取的准确性  105-106
  4.6 本章小结  106-108
5 面向视频搜索的检索排序算法  108-128
  5.1 引言  108
  5.2 权值计算的基本模型  108-110
  5.3 文本相关性的计算  110-112
  5.4 视频质量的度量  112-115
  5.5 归并排序算法  115-127
    5.5.1 归并排序算法概述  116-118
    5.5.2 视频搜索的归并排序  118-121
    5.5.3 归并排序算法的实验  121-127
  5.6 本章小结  127-128
6 视频搜索引擎性能评估  128-146
  6.1 引言  128
  6.2 数据获取性能评估  128-134
    6.2.1 定向抓取的性能评估  128-132
    6.2.2 网页视频挖掘的性能评估  132-134
  6.3 搜索性能评估  134-139
    6.3.1 检索相关性评估  134-136
    6.3.2 搜索访问量评估  136-137
    6.3.3 视频搜索用户数量评估  137-138
    6.3.4 对国内互联网视频行业的贡献  138-139
  6.4 与其它视频搜索引擎网站的对比  139-144
    6.4.1 “谷歌”视频搜索引擎  139-140
    6.4.2 Bing“必应”视频搜索  140-141
    6.4.3 视频搜索引擎的对比  141-144
  6.5 本章小结  144-146
7 总结及展望  146-150
  7.1 全文内容总结  146-147
  7.2 未来工作及展望  147-150
参考文献  150-158
附录 A  158-160
作者简历  160-164
学位论文数据集  164

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 生物医学领域检索系统查询扩展技术研究,TP391.3
  4. 网络搜索引擎的相关技术研究,G354
  5. 基于文本挖掘的学者简历自动生成,TP391.1
  6. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  7. 基于Web的未登录词翻译技术研究,TP391.2
  8. 基于社会网络分析的藏文web链接结构研究,TP393.09
  9. 基于本体的文本信息抽取技术及实现,TP391.1
  10. 基于查询扩展的信息抽取技术研究及应用,TP391.1
  11. 基于本体的食品投诉文本危害信息抽取研究,TP391.1
  12. 基于本体的食品投诉文档事件追踪研究,TP391.1
  13. 外文数据库无障碍信息检索的策略研究,G354
  14. 网页属性抽取的方法研究,TP391.1
  15. 移动互联网环境下无线垂直搜索引擎的研究与实现,TP391.3
  16. 基于规则的Web文本信息抽取技术的研究,TP391.1
  17. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  18. 面向元搜索引擎的Web页面排序优化技术研究与实现,TP393.09
  19. 数据挖掘技术在证券市场分析中的应用研究,F830.91
  20. 基于情感词的产品评论挖掘研究,TP311.13
  21. 基于语义的Web信息抽取方法的研究与应用,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com