学位论文 > 优秀研究生学位论文题录展示
网页核心语义数据提取算法研究
作 者: 何正
导 师: 刘晓
学 校: 华东师范大学
专 业: 计算机软件与理论
关键词: 网页语义数据 语义区域标注 网络挖掘 网页抽取 机器学习 SVM
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 10次
引 用: 0次
阅 读: 论文下载
内容摘要
在网络信息爆炸式增长的背景下,网页语义的描述及其提取方法的研究正受到越来越广泛的关注。网页语义的研究在语义网络构建、网络挖掘和其它商业应用中具有重要的理论意义和应用价值。而现有的语义提取方法或者需要耗费大量的人力、或者只限用于某个特定领域,都难以适应当今普遍且频繁的应用需求。在本文中,我们提出一种通过识别和划分网页逻辑结构来获取网页语义的提取方法。运用网络挖掘和网页内容抽取技术,只需要将少量的标注页面作为训练数据,并仅使用从单个页面中提取的网页结构特征,就能够自动化地将网页内容从由标签和文本组成的字符流转化为一组逻辑上相对独立的功能区域。通过各个区域在网页中的位置分布等信息,识别出每一个区域在网页中承担的具体功能。我们的方法将重复结构这一种重要的网页结构作为分析问题的切入点,首先,使用机器学习的方法,将决策树和SVM组合构成的分类器用于网页中重复结构的识别和定位;然后,识别出有意义的重复结构并以之为分割点将网页内容分为若干语义区域;最后,标定网页中每个语义区域的语义功能,并抽取出各个区域中有价值的数据内容。我们将网页逻辑结构划分的结果和语义区域的功能标定的结果作为本文研究的两类主要语义信息。我们提出的语义描述模型和提取方法与现有的其他同类方法相比,具有实现简单、不受领域、主题和目标页面网页结构的影响,需要消耗的人力少,提取的结果精确等特点。在本文中,我们详细描述了方法的执行过程和每一个具体步骤。在实验章节中,通过与当前两种经典方法的优劣分析和实验对比,证明本文提出的方法具有重要价值。
|
全文目录
摘要 6-7 ABSTRACT 7-10 第一章 绪论 10-14 1.1 研究背景和意义 10 1.2 网页语义描述和提取 10-12 1.3 本文工作和主要贡献 12 1.4 本文结构 12-14 第二章 相关技术和研究现状 14-24 2.1 网络挖掘技术 14-21 2.1.1 网页抽取 14-19 2.1.2 网页分类 19-21 2.2 网页语义研究 21-24 2.2.1 语义网络和网络挖掘 21-22 2.2.2 网页语义挖掘技术 22-24 第三章 方法设计 24-39 3.1 概念定义 25-27 3.1.1 重复结构和重复单元 25 3.1.2 网页生成模型 25-27 3.2 重复结构定位方法 27-32 3.2.1 分组算法 28-29 3.2.2 合并规则 29 3.2.3 特征选择 29-32 3.3 结构化和表格提取 32-34 3.3.1 序列化算法 33 3.3.2 MSA算法在重复结构结构化中的应用 33-34 3.3.3 结构化效果分析 34 3.4 语义标定与网页逻辑结构划分 34-38 3.4.1 重复结构语义标定 34-35 3.4.2 非重复结构区域提取算法 35-36 3.4.3 非重复结构区域语义标定 36-37 3.4.4 特征选择 37-38 3.5 本章小结 38-39 第四章 实验分析 39-45 4.1 实验环境 39 4.2 数据集准备 39 4.3 数据预处理 39-40 4.4 分类型设计 40-41 4.4.1 失衡样本上的分类器设计 40 4.4.2 过滤效果的评价 40-41 4.4.3 性能评价标准 41 4.5 实验过程和分析 41-45 第五章 总结和展望 45-47 5.1 总结 45 5.2 展望 45-47 附录 47-48 参考文献 48-53 后记 53
|
相似论文
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 英汉命名实体翻译方法研究,TP391.2
- 中文缺省识别研究,TP391.1
- 基于计算机视觉的柑橘品质分级技术研究,TP391.41
- 生物医学缩略语消歧,R-5
- 海南雾的天气气候特征分析及预报方法研究,P457
- 基于视觉的运动人体行为分析,TP391.41
- 李群深层结构学习算法研究,TP181
- 学习表达式的映射机制研究,TP181
- 基于配体结构的药物靶标预测及细胞色素P450酶代谢底物数据库CYP-Meta的构建,R91
- 基于脑波的情感图像检索的研究,TP391.41
- 电动汽车驱动控制系统的研究,U469.72
- 音乐风格分析研究,J605
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于STM32异步电机SVM-DTC系统的设计,TM921.2
- 20kV线路接地保护研究,TM862
- 基于PCA和SVM的汽车涂装线机电设备智能诊断,TH165.3
- 基于小波和神经网络理论的电力系统负荷预测研究,TM715
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 生料浆配料过程返料成分的时间序列混沌分析和SVM预测研究,O211.61
- 定量构效关系和分子对接在药物分析化学中的应用,R917
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|