学位论文 > 优秀研究生学位论文题录展示

Web资源质量元数据的获取与管理技术的研究与实现

作 者: 刘莉
导 师: 朱焱
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: DC规范 质量元数据模型(WebQM) 质量元数据获取 质量元数据管理和分析
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 22次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着Internet的飞速发展,互联网上的信息资源日益丰富,Web数据以多种形式存在,没有特定的模型描述,数据本身存在着自我描述性和动态可变性,从纷繁复杂的资源中得到高质量的信息是一个巨大的挑战。近年来,国内外学者在Web资源质量评测技术的研究上取得了很大进展,提出了一系列的质量评测指标体系。然而在经典的方法中,根据质量指标定性评测Web资源质量具有很高的主观性,容易造成评测偏差,降低了质量评测结果的准确性。为了客观、准确地获得Web资源质量状况,本文研究了从质量元数据的角度评价Web资源质量的方法。本文将Web资源/信息质量评测模型WebQM模型理解为Web资源质量元数据模型,采用都柏林核心元数据集规范(Dublin Core Element Set,简称DC)作为Web资源元数据设计的标准,对DC元素进行扩展。同时,研究了Web资源质量元数据的量化方法,分析了数据抽取技术,采用基于正则表达式的数据抽取技术来获取质量元数据。在数据仓库设计过程中,通过分析Web资源质量评价与各个质量.子维的关系,对事实表与维表进行设计,建立星型模型,构建了一个初级的Web资源质量元数据仓库。本文的最终目标是构建Web资源质量元数据仓库,在数据仓库的基础上对Web资源质量元数据进行管理和分析。为此本文研究了非事实型事实表的分析方法,在数据仓库基础上进行统计计算等数据分析操作,分析比较了Web资源的质量情况。实验结果表明本论文中对Web资源的质量元数据的管理与分析工作可以帮助综合分析Web资源质量,能够方便快捷地判断Web资源质量好坏及其质量变化趋势,达到了本文的核心目标。

全文目录


摘要  6-7
Abstract  7-10
第1章 绪论  10-15
  1.1 Web元数据的重要意义  10-11
  1.2 研究现状  11-13
    1.2.1 国外研究现状  11-12
    1.2.2 国内研究现状  12-13
  1.3 本文研究内容  13-14
  1.4 论文组织结构  14-15
第2章 相关技术介绍  15-28
  2.1 质量元数据  15-18
    2.1.1 网络资源元数据规范—Dublin Core  15-17
    2.1.2 质量元数据  17-18
    2.1.3 元数据量化技术  18
  2.2 Web资源质量元数据模型  18-19
  2.3 Web信息抽取技术  19-22
  2.4 数据仓库  22-24
    2.4.1 数据仓库的定义  22
    2.4.2 数据仓库基本结构  22-23
    2.4.3 数据仓库的实现  23-24
  2.5 基于数据仓库的数据分析  24-27
    2.5.1 OLAP的相关定义  24
    2.5.2 多维数据模型  24-26
    2.5.3 OLAP的多维分析  26-27
  2.6 本章小结  27-28
第3章 Web资源质量元数据度量  28-35
  3.1 整体流程  28-29
  3.2 Web资源质量元数据的量化  29-34
  3.3 本章小结  34-35
第4章 Web资源质量元数据抽取  35-42
  4.1 Web资源质量元数据暂存表的设计  35-37
  4.2 Web资源质量元数据的抽取  37-40
  4.3 抽取过程中的关键问题  40-41
  4.4 本章小结  41-42
第5章 构建Web资源质量元数据仓库及OLAP分析  42-54
  5.1 构建Web资源质量元数据仓库  42-48
    5.1.1 事实表和维表的设计  42-45
    5.1.2 数据仓库逻辑模型  45
    5.1.3 数据仓库的构建  45-48
  5.2 Web资源质量元数据的OLAP分析  48-53
    5.2.1 创建OLAP数据立方  48-49
    5.2.2 数据分析  49-53
  5.3 本章小结  53-54
结论与展望  54-56
致谢  56-57
参考文献  57-60
攻读硕士学位期间发表的论文  60

相似论文

  1. 支持XML数据查询的F&B索引结构的研究,TP311.13
  2. 海量多数据库集成系统的查询处理研究,TP311.13
  3. 频繁图结构并行挖掘算法的研究与实现,TP311.13
  4. 隐式用户兴趣挖掘的研究与实现,TP311.13
  5. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  6. 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 基于流形学习的数据降维技术研究,TP311.13
  9. K-means聚类优化算法的研究,TP311.13
  10. 公安110指挥决策业务系统,TP311.13
  11. 基于分治法的聚类方法研究,TP311.13
  12. 不完备信息系统的完备化及其上的知识获取,TP311.13
  13. 演化聚类算法及其应用研究,TP311.13
  14. 面向领域的数据库问答系统关键技术研究,TP311.13
  15. 教学质量评估数据挖掘系统设计与开发,TP311.13
  16. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  17. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  18. 对于系统发育谱法聚类算法的改进,TP311.13
  19. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  20. 一种多数据流聚类异常检测算法,TP311.13
  21. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com