学位论文 > 优秀研究生学位论文题录展示
基于语义的XML关键字查询结果多样化
作 者: 宋玉玲
导 师: 王宁
学 校: 北京交通大学
专 业: 计算机科学与技术
关键词: XML 关键字查询 实体 多样化
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 29次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,XML作为互联网上数据表示和交换的标准格式日渐受到人们重视,XML查询也由此成为研究热点。对于大量的没有专业背景的用户,传统的结构化查询方式已不再适用,关键字查询无需用户掌握复杂的查询语言和数据库内部的模式信息,因而获得了较大的发展空间。但是,关键字查询在查询意图的表达能力上天生不足,查询处理只能尽量返回相关结果,加上可能出现的查询语义不明确和查询空间规模庞大等情况,会造成查询结果数量众多,如何合理有效地组织查询结果成为了一个亟待解决的问题。本文对XML关键字查询结果的多样化问题展开研究,查询结果多样化就是按某种原则将查询结果分类组织,从而达到方便用户查找的目的。主要工作如下:1)将XML数据所描述的不同对象表示为包含独特语义信息的实体,并对这些实体进行合理的语义分组。通过分析实体中最具代表性的特征信息,综合定义一个计算实体间语义相似度的公式,然后计算任意实体间的语义相似值,根据选定的聚类算法将语义相似的实体聚集为同一分组。2)提出一种按查询结果所属中心实体的语义类别进行行结果多样化的方法。以往的多样化方法大都关注查询结果的匹配模式,该方法避开了这种繁杂的处理,从语义层面出发,定义查询结果所属中心实体的定位法则,依据前期实体的语义分组,将所属中心实体在同·语义分组的查询结果归为一组。该方法不仅充分考虑了不同用户的查询需求,使查询结果分组更加清晰合理,而且将大部分牦时的工作放在线下进行,有效缩短查询处理时间。实验结果表明,语义相似度计算公式能有效地反映不同实体间的语义距离,我们提出的基中心实体语义类别的查询结果多样化方法较以往的多样化方法在有效性、效率和可扩展性方面都有较大提高。
|
全文目录
致谢 5-6 摘要 6-7 ABSTRACT 7-11 1 绪论 11-17 1.1 研究背景和意义 11-12 1.2 国内外研究现状 12-15 1.2.1 XML关键字查询研究 12-14 1.2.2 查询结果组织方法研究 14-15 1.3 本文完成的工作 15-16 1.4 论文的组织结构 16-17 2 XML查询结果组织问题概述 17-31 2.1 XML文档概述 17-22 2.1.1 XML文档的主要特点与构成要素 17-19 2.1.2 XML文档解析 19-20 2.1.3 Dewey编码及基本操作 20-22 2.1.4 XML文档的节点分类 22 2.2 XML数据的语义相似性研究 22-26 2.2.1 语义相似度概述 23-24 2.2.2 XML片段的相似性度量 24-26 2.3 XML查询结果组织方法介绍 26-30 2.3.1 基于相关性和新颖性的组织方法 27-28 2.3.2 基于查询模糊性的组织方法 28-29 2.3.3 基于查询结果特征的组织方法 29-30 2.4 本章小结 30-31 3 基于中心实体语义类别的查询结果多样化 31-49 3.1 问题描述 31-34 3.2 实体的语义相似性度量 34-37 3.2.1 实体相关定义 34-35 3.2.2 影响实体语义相似性的因素 35-37 3.3 利用中心实体进行查询结果多样化 37-41 3.3.1 实体多样化方法 37-39 3.3.2 中心实体定位及多样化分组产生 39-40 3.3.3 多样化算法描述 40-41 3.4 结果排序 41-45 3.4.1 多样化分组之间的排序 42-44 3.4.2 分组内部查询结果之间的排序 44-45 3.5 系统实现 45-49 3.5.1 系统结构 45-46 3.5.2 索引结构的设计 46-47 3.5.3 多样化算法的具体实现 47-49 4 实验及结果分析 49-59 4.1 实验环境介绍 49 4.2 实验对比方法 49 4.3 实验介绍 49-51 4.3.1 实验数据集 49-50 4.3.2 实验评估指标 50-51 4.4 实验过程及结果分析 51-58 4.4.1 多样化方法有效性及排序有效性的比较 52-55 4.4.2 多样化方法效率及可扩展性的比较 55-58 4.5 实验结论 58-59 5 总结与展望 59-61 5.1 本文工作总结 59 5.2 进一步研究工作与展望 59-61 参考文献 61-64 作者简历 64-66 学位论文数据集 66
|
相似论文
- 基因调控网络模型描述语言研究,Q78
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 领域实体属性及事件抽取技术研究,TP391.1
- LXI自动测试系统集成技术研究,TP274
- 基于网络的服装款式设计系统的研究与实现,TS941.2
- 基于MDA的界面自动生成方法的研究,TP311.5
- 面向服务实体的网构软件演化模型的研究,TP311.5
- C++代码缺陷检测系统的研究与设计,TP311.53
- 自体CIK细胞过继免疫治疗恶性实体瘤的临床研究,R730.5
- 利用钻孔资料实现矿体三维可视化,TP391.41
- 基于中间件的科技查新辅助检索系统的设计与实现,TP391.3
- 液压往复式稠油采油系统的改进,TE345
- 高中英语语法教学现状的调查研究,G633.41
- 基于聚类的英汉人名消歧研究,TP391.1
- 汉语嵌套命名实体识别方法研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 量刑实体规范化二元论初探:定量分析论与案例指导,D914
- 现代书籍设计中书籍形态多样性研究,J524
- 视觉传达设计在新形势下的生态选择,J524
- SOA架构在高校信息化系统中整合技术的应用,TP311.52
- IGFBP-6对缺氧诱导性血管生成的作用研究,Q46
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|