学位论文 > 优秀研究生学位论文题录展示

基于文档结构的半监督Blog信息抽取技术

作 者: 李斌
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网页分块 模块提取 Blog信息抽取 本体论
分类号: TP393.092
类 型: 硕士论文
年 份: 2009年
下 载: 62次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针对Blog数据的信息抽取技术研究成为迫切需要。本文首先对Blog页面进行了深入的分析,发现页面含有结构信息和语义信息,针对这一特点提出了一种Blog数据特征方法,该方法将原始Blog数据转化为值和路径的表示方式,更有利于信息抽取。另外发现Blog页面模板化、模块化和个性化的特点,这会导致Html结构发生变化,进而信息抽取面对数据源也会不统一,为解决这些问题,本文提出了基于子树相似性的Blog页面分块算法(BPS-BSS),该算法通过递归地对页面中节点进行层次聚类合并筛选,能够提取出Blog页面中的所有Blog模块,使信息抽取算法只需要在模块内部抽取信息即可。实验表明该算法具有很高的准确性和很低的时间复杂度。提取出Blog页面中的Blog模块之后,利用模块含有的语义信息,本文提出了基于本体论的信息抽取算法,该算法首先建立一一对应的Module概念和Blog概念,每个Blog概念都含有信息项概念,每个信息项都含有一些数据属性信息;然后采用半监督的方式简单地标注样本,利用样本来归纳学习信息项的数据属性;最后利用信息项的数据属性生成信息项的抽取规则。由于是在模块内部进行信息抽取,实验表明,这种算法不仅提高了抽取速度也提高了抽取准确性。基于以上的研究成果,本文设计并实现了一个Blog信息抽取的实验原型系统,包括异步网络爬虫、页面分块模块、生成抽取规则、信息抽取算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。

全文目录


摘要  4-5
Abstract  5-10
第1章 绪论  10-18
  1.1 研究背景和意义  10-11
    1.1.1 研究背景  10
    1.1.2 研究意义  10-11
  1.2 国内外研究和综述  11-15
    1.2.1 页面分块技术现状  11-12
    1.2.2 信息抽取技术现状  12-15
  1.3 研究问题定义  15-16
  1.4 本文研究内容  16
  1.5 本文结构安排  16-18
第2章 Blog数据特征分析  18-23
  2.1 BLOG页面特点分析  18-19
    2.1.1 Blog页面模板化  18-19
    2.1.2 Blog页面模块化  19
    2.1.3 Blog页面个性化  19
  2.2 BLOG页面模块定义  19-20
  2.3 BLOG数据表示  20-22
    2.3.1 HTML文档解析  20
    2.3.2 Blog页面数据特征表示  20-22
  2.4 本章小结  22-23
第3章 基于子树相似性的Blog页面分块  23-36
  3.1 引言  23-24
  3.2 BLOG页面分块算法  24-30
    3.2.1 算法描述  24-25
    3.2.2 页面Html标签树的构建  25-30
  3.3 BLOG页面分块的层次性  30-31
  3.4 BLOG模块分类  31-32
    3.4.1 分类属性的选取  31
    3.4.2 分类过程描述  31-32
  3.5 实验及结果分析  32-35
    3.5.1 性能评价指标  32-33
    3.5.2 实验结果分析  33-35
  3.6 本章小结  35-36
第4章 基于ontology的Blog信息抽取  36-50
  4.1 BLOG领域的ONTOLOGY的构建  36-42
    4.1.1 ontology的定义  36-37
    4.1.2 ontology构建规则  37-38
    4.1.3 ontology构建方法  38-39
    4.1.4 构建Blog ontology  39-41
    4.1.5 Blog ontology概念定义  41-42
  4.2 ONTOLOGY概念数据属性的归纳学习  42-44
  4.3 抽取规则的构造  44-45
    4.3.1 抽取规则描述  44
    4.3.2 抽取规则的构造  44-45
  4.4 信息抽取算法  45-46
  4.5 实验及结果分析  46-49
    4.5.1 训练样本生成  46
    4.5.2 信息抽取评价指标  46-47
    4.5.3 实验结果分析  47-49
  4.6 本章小结  49-50
第5章 Blog信息抽取系统  50-57
  5.1 系统功能与环境  50-51
    5.1.1 开发目的及功能  50-51
    5.1.2 开发平台及工具  51
  5.2 系统总体设计  51-52
  5.3 系统模块设计与实现  52-56
    5.3.1 异步网络爬虫模块  52-54
    5.3.2 页面分块模块  54
    5.3.3 可视化标注模块  54
    5.3.4 ontology数据属性归纳学习模块  54-55
    5.3.5 抽取规则生成模块  55
    5.3.6 信息抽取模块  55-56
  5.4 本章小结  56-57
结论  57-59
参考文献  59-64
致谢  64

相似论文

  1. 哲学思想在指导中学数学教学中的作用,G633.6
  2. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  3. 普适计算下智能空间的哲学探究,N02
  4. 对马克思主义的唯物主义的一种重释,A811
  5. 基于ontology的Blog信息抽取技术研究,TP393.092
  6. 现代西方哲学对心理学的诘难及意义,B84-06
  7. 面向协同的机械产品设计知识本体建模研究,TP391.72
  8. 量能课税原则法哲学研究,F812.42
  9. 索绪尔和后期维特根斯坦语言观批判,H0
  10. 六朝画论与文论关系探赜,J209.2
  11. 卢卡奇社会存在本体论思想研究,B089
  12. 浅论马克思的物质本体论,B02
  13. 寻找本真的自我,I561.072
  14. 斯宾诺莎自然观及其对我国生态文明建设的启示,X2
  15. 基于本体的智能化知识检索,G354
  16. 论伽达默尔理解的客观性问题,B516
  17. 城市地理信息检索服务研究,P208
  18. 基于本体的语义查询扩展研究,TP391.3
  19. 基于本体的监控视频描述与检索研究及流媒体发布平台开发,TN919.8
  20. 网络文本信息采集分析关键技术研究与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com