学位论文 > 优秀研究生学位论文题录展示

网页综合信息与领域本体相结合的主题爬行研究

作 者: 关鑫
导 师: 欧阳丹彤
学 校: 吉林大学
专 业: 计算机软件与理论
关键词: 主题爬行 本体 锚文本 特征项位置
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 46次
引 用: 0次
阅 读: 论文下载
 

内容摘要


主题爬行是在背景知识的指导下,根据一定的网页分析算法过滤主题无关的网页,预测并抓取主题相关的网页。主题爬行对于解决从海量信息中提取需要的信息及在特定领域搜索信息具有重要的意义。本文的主要工作是研究利用本体作为背景知识来指导主题爬行策略,将URL的综合信息与本体结合以求提高主题爬行的效率。在传统爬行框架的基础上,本文对网页内容做了具体的分析,指出网页某些位置的信息对于揭示网页主题具有很重要的意义。算法从网页文档提取出特征向量,并将特征向量加上文档位置权重因子与本体的概念进行匹配从而得到网页主题相关度;利用扩展锚文本来预测超链接的主题相关度。根据计算的网页主题相关度与预测链接的主题相关度结合来设计一个爬行策略,并与现有的基于本体的爬行策略对比。通过实验表明,本文的爬行策略收获比明显优于对比实验中的其他爬行策略。通过大量的实验数据对比分析:利用网页综合信息与领域本体结合来指导主题爬行策略,可以有效提升网页主题爬行的收获比。

全文目录


提要  4-7
第1章 绪 论  7-12
  1.1 研究背景和意义  7
  1.2 搜索引擎研究现状  7-9
  1.3 主题爬行的提出  9
  1.4 主题爬行策略研究现状  9-10
  1.5 本文的工作及组织结构  10-12
第2章 主题爬行和语义WEB相关技术介绍  12-20
  2.1 主题爬行策略原理  12-14
  2.2 主题爬行策略的研究  14-16
    2.2.1 基于网页文档内容分析的方法  14
    2.2.2 基于链接分析的方法  14-15
    2.2.3 其他研究方法  15-16
  2.3 文本处理技术  16-17
  2.4 将语义WEB技术应用到主题爬行的研究  17-20
    2.4.1 语义Web框架  17-18
    2.4.2 本体的介绍  18-19
    2.4.3 本体的形式化定义  19-20
第3章 网页综合信息与领域本体相结合的主题爬行策略  20-33
  3.1 文档特征向量位置信息与本体语义结合计算主题相关度  20-24
    3.1.1 文档特征项位置对主题相关度影响  20-21
    3.1.2 领域本体对主题爬行的影响  21-23
    3.1.3 特征项位置与本体语义结合计算主题相关度  23-24
  3.2 综合锚文本信息与本体语义预测子链接主题相关度  24-30
    3.2.1 锚文本对预测URL主题相关度的影响  24-26
    3.2.2 URL链接关系对预测主题相关度的影响  26-28
    3.2.3 锚文本信息与URL链接关系预测URL主题相关度算法  28-30
  3.3 网页综合信息与领域本体结合的主题爬行策略  30-33
第4章 主题爬虫系统设计与功能实现  33-42
  4.1 系统结构和流程  33-36
    4.1.1 系统框架和主要功能模块介绍  33-34
    4.1.2 爬行流程介绍  34-36
  4.2 核心功能模块介绍  36-40
  4.3 构建领域本体指导主题爬行  40
  4.4 系统开发工具  40-42
第5章 实验设计与分析  42-46
  5.1 实验说明  42-43
    5.1.1 数据集  42
    5.1.2 实验评价标准  42-43
  5.2 实验数据分析  43-45
  5.3 实验结论  45-46
第6章 工作总结与展望  46-48
  6.1 工作总结  46
  6.2 未来前景展望  46-48
参考文献  48-51
致谢  51-52
摘要  52-54
Abstract  54-56

相似论文

  1. 哲学思想在指导中学数学教学中的作用,G633.6
  2. 基于本体的语义检索研究,TP391.3
  3. 不同人群本体感觉差异性比较及脑机制研究,B845
  4. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  5. 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
  6. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  7. WordNet和《中国分类主题词表》的映射研究,G254
  8. 拉图尔的行动者网络理论研究,N02
  9. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  10. 220kV输电线路除冰机器人机械本体研究,TP242
  11. 基于本体的食品投诉文档文本聚类研究,TP391.1
  12. 关系数据库到RDF(S)映射方法的研究,TP311.13
  13. 基于语义的Web服务发现研究,TP393.09
  14. 本体在智能小区中的应用研究,TP391.1
  15. 基于领域本体的海洋环境数据仓库设计,TP311.13
  16. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  17. 普适计算下智能空间的哲学探究,N02
  18. 企业级软件组件质量保障与快速部团策略的研究,TP311.53
  19. 情景应对模式下数字化应急预案的语义模型研究,TP391.1
  20. 一种基于语义的建筑工程质量检测方法研究,TP391.1
  21. 构件垂直搜索引擎的关键技术研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com