学位论文 > 优秀研究生学位论文题录展示
Web资源质量元数据的获取与管理技术的研究与实现
作 者: 刘莉
导 师: 朱焱
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: DC规范 质量元数据模型(WebQM) 质量元数据获取 质量元数据管理和分析
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 22次
引 用: 1次
阅 读: 论文下载
内容摘要
随着Internet的飞速发展,互联网上的信息资源日益丰富,Web数据以多种形式存在,没有特定的模型描述,数据本身存在着自我描述性和动态可变性,从纷繁复杂的资源中得到高质量的信息是一个巨大的挑战。近年来,国内外学者在Web资源质量评测技术的研究上取得了很大进展,提出了一系列的质量评测指标体系。然而在经典的方法中,根据质量指标定性评测Web资源质量具有很高的主观性,容易造成评测偏差,降低了质量评测结果的准确性。为了客观、准确地获得Web资源质量状况,本文研究了从质量元数据的角度评价Web资源质量的方法。本文将Web资源/信息质量评测模型WebQM模型理解为Web资源质量元数据模型,采用都柏林核心元数据集规范(Dublin Core Element Set,简称DC)作为Web资源元数据设计的标准,对DC元素进行扩展。同时,研究了Web资源质量元数据的量化方法,分析了数据抽取技术,采用基于正则表达式的数据抽取技术来获取质量元数据。在数据仓库设计过程中,通过分析Web资源质量评价与各个质量.子维的关系,对事实表与维表进行设计,建立星型模型,构建了一个初级的Web资源质量元数据仓库。本文的最终目标是构建Web资源质量元数据仓库,在数据仓库的基础上对Web资源质量元数据进行管理和分析。为此本文研究了非事实型事实表的分析方法,在数据仓库基础上进行统计计算等数据分析操作,分析比较了Web资源的质量情况。实验结果表明本论文中对Web资源的质量元数据的管理与分析工作可以帮助综合分析Web资源质量,能够方便快捷地判断Web资源质量好坏及其质量变化趋势,达到了本文的核心目标。
|
全文目录
摘要 6-7 Abstract 7-10 第1章 绪论 10-15 1.1 Web元数据的重要意义 10-11 1.2 研究现状 11-13 1.2.1 国外研究现状 11-12 1.2.2 国内研究现状 12-13 1.3 本文研究内容 13-14 1.4 论文组织结构 14-15 第2章 相关技术介绍 15-28 2.1 质量元数据 15-18 2.1.1 网络资源元数据规范—Dublin Core 15-17 2.1.2 质量元数据 17-18 2.1.3 元数据量化技术 18 2.2 Web资源质量元数据模型 18-19 2.3 Web信息抽取技术 19-22 2.4 数据仓库 22-24 2.4.1 数据仓库的定义 22 2.4.2 数据仓库基本结构 22-23 2.4.3 数据仓库的实现 23-24 2.5 基于数据仓库的数据分析 24-27 2.5.1 OLAP的相关定义 24 2.5.2 多维数据模型 24-26 2.5.3 OLAP的多维分析 26-27 2.6 本章小结 27-28 第3章 Web资源质量元数据度量 28-35 3.1 整体流程 28-29 3.2 Web资源质量元数据的量化 29-34 3.3 本章小结 34-35 第4章 Web资源质量元数据抽取 35-42 4.1 Web资源质量元数据暂存表的设计 35-37 4.2 Web资源质量元数据的抽取 37-40 4.3 抽取过程中的关键问题 40-41 4.4 本章小结 41-42 第5章 构建Web资源质量元数据仓库及OLAP分析 42-54 5.1 构建Web资源质量元数据仓库 42-48 5.1.1 事实表和维表的设计 42-45 5.1.2 数据仓库逻辑模型 45 5.1.3 数据仓库的构建 45-48 5.2 Web资源质量元数据的OLAP分析 48-53 5.2.1 创建OLAP数据立方 48-49 5.2.2 数据分析 49-53 5.3 本章小结 53-54 结论与展望 54-56 致谢 56-57 参考文献 57-60 攻读硕士学位期间发表的论文 60
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 海量多数据库集成系统的查询处理研究,TP311.13
- 频繁图结构并行挖掘算法的研究与实现,TP311.13
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
- K-均值聚类算法的研究与改进,TP311.13
- 基于流形学习的数据降维技术研究,TP311.13
- K-means聚类优化算法的研究,TP311.13
- 公安110指挥决策业务系统,TP311.13
- 基于分治法的聚类方法研究,TP311.13
- 不完备信息系统的完备化及其上的知识获取,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 面向领域的数据库问答系统关键技术研究,TP311.13
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 对于系统发育谱法聚类算法的改进,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 一种多数据流聚类异常检测算法,TP311.13
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|