学位论文 > 优秀研究生学位论文题录展示
基于文档结构的半监督Blog信息抽取技术
作 者: 李斌
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网页分块 模块提取 Blog信息抽取 本体论
分类号: TP393.092
类 型: 硕士论文
年 份: 2009年
下 载: 62次
引 用: 0次
阅 读: 论文下载
内容摘要
随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针对Blog数据的信息抽取技术研究成为迫切需要。本文首先对Blog页面进行了深入的分析,发现页面含有结构信息和语义信息,针对这一特点提出了一种Blog数据特征方法,该方法将原始Blog数据转化为值和路径的表示方式,更有利于信息抽取。另外发现Blog页面模板化、模块化和个性化的特点,这会导致Html结构发生变化,进而信息抽取面对数据源也会不统一,为解决这些问题,本文提出了基于子树相似性的Blog页面分块算法(BPS-BSS),该算法通过递归地对页面中节点进行层次聚类合并筛选,能够提取出Blog页面中的所有Blog模块,使信息抽取算法只需要在模块内部抽取信息即可。实验表明该算法具有很高的准确性和很低的时间复杂度。提取出Blog页面中的Blog模块之后,利用模块含有的语义信息,本文提出了基于本体论的信息抽取算法,该算法首先建立一一对应的Module概念和Blog概念,每个Blog概念都含有信息项概念,每个信息项都含有一些数据属性信息;然后采用半监督的方式简单地标注样本,利用样本来归纳学习信息项的数据属性;最后利用信息项的数据属性生成信息项的抽取规则。由于是在模块内部进行信息抽取,实验表明,这种算法不仅提高了抽取速度也提高了抽取准确性。基于以上的研究成果,本文设计并实现了一个Blog信息抽取的实验原型系统,包括异步网络爬虫、页面分块模块、生成抽取规则、信息抽取算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-18 1.1 研究背景和意义 10-11 1.1.1 研究背景 10 1.1.2 研究意义 10-11 1.2 国内外研究和综述 11-15 1.2.1 页面分块技术现状 11-12 1.2.2 信息抽取技术现状 12-15 1.3 研究问题定义 15-16 1.4 本文研究内容 16 1.5 本文结构安排 16-18 第2章 Blog数据特征分析 18-23 2.1 BLOG页面特点分析 18-19 2.1.1 Blog页面模板化 18-19 2.1.2 Blog页面模块化 19 2.1.3 Blog页面个性化 19 2.2 BLOG页面模块定义 19-20 2.3 BLOG数据表示 20-22 2.3.1 HTML文档解析 20 2.3.2 Blog页面数据特征表示 20-22 2.4 本章小结 22-23 第3章 基于子树相似性的Blog页面分块 23-36 3.1 引言 23-24 3.2 BLOG页面分块算法 24-30 3.2.1 算法描述 24-25 3.2.2 页面Html标签树的构建 25-30 3.3 BLOG页面分块的层次性 30-31 3.4 BLOG模块分类 31-32 3.4.1 分类属性的选取 31 3.4.2 分类过程描述 31-32 3.5 实验及结果分析 32-35 3.5.1 性能评价指标 32-33 3.5.2 实验结果分析 33-35 3.6 本章小结 35-36 第4章 基于ontology的Blog信息抽取 36-50 4.1 BLOG领域的ONTOLOGY的构建 36-42 4.1.1 ontology的定义 36-37 4.1.2 ontology构建规则 37-38 4.1.3 ontology构建方法 38-39 4.1.4 构建Blog ontology 39-41 4.1.5 Blog ontology概念定义 41-42 4.2 ONTOLOGY概念数据属性的归纳学习 42-44 4.3 抽取规则的构造 44-45 4.3.1 抽取规则描述 44 4.3.2 抽取规则的构造 44-45 4.4 信息抽取算法 45-46 4.5 实验及结果分析 46-49 4.5.1 训练样本生成 46 4.5.2 信息抽取评价指标 46-47 4.5.3 实验结果分析 47-49 4.6 本章小结 49-50 第5章 Blog信息抽取系统 50-57 5.1 系统功能与环境 50-51 5.1.1 开发目的及功能 50-51 5.1.2 开发平台及工具 51 5.2 系统总体设计 51-52 5.3 系统模块设计与实现 52-56 5.3.1 异步网络爬虫模块 52-54 5.3.2 页面分块模块 54 5.3.3 可视化标注模块 54 5.3.4 ontology数据属性归纳学习模块 54-55 5.3.5 抽取规则生成模块 55 5.3.6 信息抽取模块 55-56 5.4 本章小结 56-57 结论 57-59 参考文献 59-64 致谢 64
|
相似论文
- 哲学思想在指导中学数学教学中的作用,G633.6
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 普适计算下智能空间的哲学探究,N02
- 对马克思主义的唯物主义的一种重释,A811
- 基于ontology的Blog信息抽取技术研究,TP393.092
- 现代西方哲学对心理学的诘难及意义,B84-06
- 面向协同的机械产品设计知识本体建模研究,TP391.72
- 量能课税原则法哲学研究,F812.42
- 索绪尔和后期维特根斯坦语言观批判,H0
- 六朝画论与文论关系探赜,J209.2
- 卢卡奇社会存在本体论思想研究,B089
- 浅论马克思的物质本体论,B02
- 寻找本真的自我,I561.072
- 斯宾诺莎自然观及其对我国生态文明建设的启示,X2
- 基于本体的智能化知识检索,G354
- 论伽达默尔理解的客观性问题,B516
- 城市地理信息检索服务研究,P208
- 基于本体的语义查询扩展研究,TP391.3
- 基于本体的监控视频描述与检索研究及流媒体发布平台开发,TN919.8
- 网络文本信息采集分析关键技术研究与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|