学位论文 > 优秀研究生学位论文题录展示
数据集成中若干问题的研究
作 者: 曹小冲
导 师: 胡运发
学 校: 复旦大学
专 业: 计算机软件与理论
关键词: 领域 本体 本体-树模型 数据集成需求 数据集成需求描述 数据查询接口 数据集成过程 接口发现 页面集成 互关联后继树 后继矩阵 原文 整数编码 位编码 XML数据 数据集成 VO值对象 外层容器对象 内部成员对象
分类号: TP311.13
类 型: 硕士论文
年 份: 2009年
下 载: 119次
引 用: 1次
阅 读: 论文下载
内容摘要
如何有效地对非结构化全文数据进行处理是数据集成领域中研究的热点和难点问题。本文从两个方面对这个问题进行了研究:我们提出了一种基于语义的通用数据集成模型——本体-树模型,它可以运用于解决各种不同领域Deep Web数据的集成问题,能够提供基于语义联系的全文数据检索服务,实验证明,这种语义索引模型具有高度灵活性和可扩展性,在实际应用中是行之有效的;同时,我们根据熵编码理论对已有的全文索引模型——互关联后继树索引模型在编码方面做出了优化,提出了一种基于字节位的编码方案,大大降低了所生成索引数据的膨胀比系数,并给出了相对应的原文生成算法和全文检索算法,在实践中取得了良好的运行效果。此外,我们还对已成为数据集成领域中的一个重要研究工具的XML数据的使用问题做出了分析,提出了XML数据的数值对象化模型,切实解决了XML数据实际使用过程中会遇到的两个突出难题。
|
全文目录
摘要 4-5 Abstract 5-8 第一章 绪论 8-10 第二章 基于本体-树模型的Deep Web数据通用集成方法 10-38 2.1 引言INTRODUCTION 11-12 2.1.1 相关工作Related work 11-12 2.1.2 本文概况Our work 12 2.2 本体-树模型THE ONTOLOGY-TREE MODEL 12-28 2.2.1 本体分析Ontology analysis 12-13 2.2.2 模型设计Model design 13-18 2.2.2.1 接口定义子树T_(intf) Interface definition sub-tree 15 2.2.2.2 本体内容子树T_(ocon) Ontology content sub-tree 15-16 2.2.2.3 数据来源子树T_(dsrc) Data source sub-tree 16-18 2.2.3 模型运算Model computation 18-20 2.2.4 本体解析算法Ontology-Parsing algorithm 20-28 2.3 数据集成算法DATA_INTEGRATION ALGORITHM 28-33 2.3.1 接口发现算法Interface-Detecting algorithm 31-32 2.3.2 页面集成算法Page-Integrating algorithm 32-33 2.4 数据查询算法DATA_SEARCHING ALGORITHM 33-35 2.5 实验数据及分析EXPERIMENTAL DATA AND ANALYSIS 35-37 2.6 结论及进一步工作CONCLUSION AND FUTURE WORK 37-38 第三章 互关联后继树索引模型的编码优化方法 38-52 3.1 引言INTRODUCTION 38-40 3.2 编码方案ENCODING SOLUTION 40-41 3.3 编码算法ENCODING ALGORITHMS 41-43 3.4 原文生成算法TEXT-REGENERATING ALGORITHMs 43-47 3.4.1 字符定位算法Char-Locating algorithm 43-44 3.4.2 后继树编码个数算法Code-Counting algorithm 44 3.4.3 后继树编码值算法Code-Value algorithm 44-45 3.4.4 原文根地址算法Text-Root-Address algorithm 45-46 3.4.5 原文生成算法Text-Regenerating algorithm 46-47 3.5 全文检索算法TEXT-RETRIEVAL ALGORITHM 47-49 3.6 实验数据及分析EXPERIMENTAL DATA AND ANALYSIS 49-51 3.7 小结SUMMARY 51-52 第四章 XML数据的数值对象化及转化算法 52-81 4.1 引言INTRODUCTION 53-54 4.2 数值对象化模型VALUE OBJECT-ORIENTED MODEL 54-65 4.3 数据转化算法DATA-TRANSFORMING ALGORITHMS 65-80 4.3.1 导入XML数据到VO对象Loading XML data into VO 65-74 4.3.1.1 XML数据导入算法XML-Loading algorithm 66-70 4.3.1.2 成员对象加入算法Member object-Set algorithm 70-71 4.3.1.3 部分文档解析—DOM接口Partial document parsing 71-74 4.3.2 导出VO中数据为XML Exporting VO data to XML 74-76 4.3.3 VO类源码生成算法Source codes-Generating algorithm 76-80 4.4 实验数据及分析EXPERIMENTAL DATA AND ANALYSIS 80 4.5 小结SUMMARY 80-81 第五章 总结与展望 81-82 参考文献 82-85 致谢 85-86 论文发表情况 86-87
|
相似论文
- SOA高校迎新系统中的SDO模型的研究与实现,G647
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 基于数据集成的人事系统设计与实现,TP311.52
- 钢铁服务企业生产管理方法研究与信息系统设计,F426.31
- 基于XML的异构数据源集成与查询技术研究,TP311.52
- 数据集成技术在公安交通管理系统中的应用研究,TP311.52
- 基于本体的数据集成中关键技术研究,TP311.13
- 基于XQuery的联系人管理系统开发,TP311.52
- 一种社交网异构数据集成方法的研究与实现,TP311.52
- 基于MAS的空间数据集成方法研究与实践,P208
- 基于CORBA和XML的南昌市交通共用信息平台的研究,U495
- 基于本体的数据模型自动映射技术的研究,TP311.52
- 支持跨域数据汇聚的关系数据访问服务研究,TP311.13
- 一种企业数据空间可视化汇聚流程建模方法与查询优化策略,TP311.13
- 基于SOA的离散数据集成技术研究,TP311.52
- 面向服务的数据集成模型的研究与实现,TP311.52
- “一户式查询系统”中数据集成技术研究与实现,TP311.13
- 基于数据集成的宿舍服务管理系统的设计与实现,TP311.52
- 基于P2P的SaaS服务数据集成方法研究与实现,TP393.09
- Web数据集成中全局模式构建方法研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|