学位论文 > 优秀研究生学位论文题录展示
Web页面语义信息提取方法的研究
作 者: 杨培颖
导 师: 于戈
学 校: 东北大学
专 业: 计算机应用技术
关键词: 语义Web 文本聚类 语义信息 语义簇聚类 信息提取
分类号: TP393.09
类 型: 硕士论文
年 份: 2008年
下 载: 34次
引 用: 0次
阅 读: 论文下载
内容摘要
Internet作为一个庞大的信息资源库,已成为人们获取信息的主要途径之一,也是教育资源的重要来源。但是,随着网上资源爆炸式地增长,人们在Web上找到自己感兴趣的资源越来越困难。搜索引擎技术的出现在一定程度上缓解了人们在搜索信息过程中遇到的困难,但是搜索引擎的弱点近年来逐渐显现,那就是它不能准确地提供给用户他们真正想搜索的信息,这是因为现有的Web内容,是以人浏览和理解为出发点而设计的,缺少计算机能够理解的信息,语义Web这时为解决此问题应运而生的。在现有的Web向语义Web过渡的过程中,人们无法立即舍弃现有的具有丰富信息的Web页面,所以现有Web页面的语义信息提取就成为能否向语义Web顺利过渡的关键。目前的Web页面语义信息提取工作需要大量的人工参与,而自动化程度较高的语义信息提取技术,性能相对较低,并且均采用定制的语言表达提取规则,缺乏通用性,系统不易升级。针对上述问题,本文提出一种Web页面语义信息提取模型,该模型可以自动地、批量地对Web页面进行语义标注,并自动提取领域的语义信息。具体地,使用了基于页面视觉特征技术的Web内容预处理技术,去除了网页内的噪音,提高了语义提取的速度和精度;提出了基于文本聚类的语义标注,使用基于段落的改进HAC算法,自底向上地对组成文档的各级段落进行聚类,对各级段落的候选关键词进行了提取和上卷,使聚类过程得到了各个语义层次的语义关键词;定义了“语义簇”的概念,设计了基于语义簇聚类的Web页面语义信息提取方法,根据文本聚类确定不同的阈值,控制语义实体的层次关系,利用语义簇相关度进行分析,建立语义簇之间的语义关联,并生成代表某一语义主题概念的用“种子语义簇”表示的词类,由此实现Web页面语义信息的提取。实验证明,基于段落层次的的改进HAC算法,缩减了语义关键词集合规模;基于改进HAC的语义簇聚类,在时间和精度上较传统算法具有更大的优势。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-18 1.1 问题提出 10 1.2 国内外研究现状 10-16 1.2.1 信息提取技术简介 10-12 1.2.2 语义Web及本体简介 12-14 1.2.3 Web语义信息提取研究现状及成果 14-16 1.3 本文的研究目标与研究内容 16-17 1.4 本文的组织机构 17-18 第2章 模型设计 18-30 2.1 Web页面语义信息提取模型 18-19 2.2 主题Web信息的提取 19-20 2.3 文本聚类 20-24 2.3.1 文本聚类的意义 20-22 2.3.2 文本聚类的过程 22-24 2.4 语义信息提取相关技术 24-28 2.4.1 现有的网页信息提取实现方法 24-26 2.4.2 基于内容的语义信息提取 26-28 2.5 本章小结 28-30 第3章 Web页面预处理算法 30-40 3.1 网页预处理 30-37 3.1.1 主题内容提取算法的比较分析 30-32 3.1.2 语义信息提取环境下的Web页面预处理方法分析 32-33 3.1.3 噪音去除方法描述 33-35 3.1.4 包含语义信息DOM树的建立 35-36 3.1.5 以段落为单位的主题内容提取 36-37 3.2 主题内容提取算法 37-39 3.3 本章小结 39-40 第4章 Web页面的文本聚类方法 40-50 4.1 基于文本聚类的语义关键词生成 40-42 4.1.1 文本聚类在语义关键词生成过程中的作用 40-41 4.1.2 基于层次的文本聚类方法 41 4.1.3 凝聚层次聚类及其改进 41-42 4.2 改进的HAC算法 42-49 4.2.1 HAC基本算法 43 4.2.2 基于段落的HAC算法文本相似度度量 43-46 4.2.3 凝聚层次聚类的合并方法改进 46-49 4.3 本章小结 49-50 第5章 基于语义簇聚类的语义信息提取 50-58 5.1 语义簇聚类 50-54 5.1.1 词聚类概述 50-51 5.1.2 语义簇聚类概念的定义 51-52 5.1.3 语义簇相关度的计算方法分析 52-54 5.2 语义信息提取算法 54-56 5.3 本章小结 56-58 第6章 算法分析与评价 58-64 6.1 实验环境及数据集 58-59 6.2 实验结果及分析 59-63 6.3 本章小结 63-64 第7章 结论与展望 64-66 参考文献 66-70 致谢 70-72 攻硕期间参加的项目及发表的论文 72
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
- 面向业务过程的服务动态组合方法研究,TP393.09
- 基于本体的语义检索研究,TP391.3
- 演化聚类算法及其应用研究,TP311.13
- 环青海湖区沙漠化土地景观格局变化分析,X171
- 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
- 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 基于语义的Web服务发现研究,TP393.09
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 工程新闻报道的信息提取及应用研究,G212
- Web新闻热点发现系统的设计与实现,TP393.09
- 船体分段的机器人焊接路径规划与离线编程,TP242
- 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
- 面向Web的中文自动文摘生成的研究,TP391.1
- 程序理解中支持多语言理解与信息提取技术的研究,TP311.52
- 汉语功能块的自动识别研究,TP391.1
- 面向海量数据的云存储系统实现与应用研究,TP333
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|