学位论文 > 优秀研究生学位论文题录展示

XML文档交互式信息检索技术研究

作 者: 郭永明
导 师: 乐嘉锦
学 校: 东华大学
专 业: 模式识别与智能系统
关键词: XML文档 交互式信息检索 节点编码模式 检索模型 相关反馈 聚类
分类号: TP391.3
类 型: 博士论文
年 份: 2010年
下 载: 231次
引 用: 0次
阅 读: 论文下载
 

内容摘要


XML作为互联网上信息描述和数据交换事实上的标准,已经被业界广泛采用。随着Web上大量XML文档的涌现,如何对XML文档进行有效的检索成为了一个具有实际应用价值的重要研究课题。由于XML文档是一种半结构化的数据,具有明显的结构标记,可表达一定的语义信息。因此,可以利用XML文档所含有的结构信息,改进传统的基于关键词的信息检索,从而提供更加全面准确的检索结果。但是,由于XML文档结构的复杂性、异构性以及可扩展性,使得如何在信息检索的过程中有效利用XML文档的结构信息成为了XML信息检索所面临的首个挑战。源于数据库的XML查询语言可以表达复杂的信息需求,但是要形成有效的结构化查询对于最终用户来说是非常困难的事情。因为用户可能并不熟悉文档结构,所以很难提出准确的“内容+结构”的结构化查询。基于关键词的XML信息检索依然面临着用户需求表达模糊的问题。XML信息检索实际上也是一个交互式的检索过程,相关反馈、检索结果聚类等交互式信息检索技术在XML信息检索中依然存在,而且有其独特的特点。例如,如何利用关键词检索的简单性迅速返回查询结果,然后根据用户的相关反馈等信息,系统自动形成或帮助用户形成内容+结构查询,以清晰地表达用户信息需求;如何根据XML文档的内容和结构特征聚类XML信息检索结果,以帮助用户迅速找到满足其需求的信息。因此,如何利用交互式信息检索技术改进XML信息检索的准确性是XML信息检索所面临的又一个挑战。本文从XML信息检索所面临的这两个挑战入手展开研究,以XML文档交互式信息检索技术作为研究课题,主要研究两个问题:第一个问题是如何有效地结合结构信息和内容信息实现XML信息检索,主要包括XML节点编码、索引、检索模型和查询处理算法;第二个问题是如何进一步解决XML信息检索中同样存在着的用户信息需求表达模糊的问题,即研究相关反馈、检索结果聚类等交互式XML信息检索的一些关键技术。本文所做的主要工作和贡献包括以下几个部分:1) XML节点编码模式及索引结构的研究。提出了一种新颖有效的节点编码模式,详细论述了该节点编码模式的定义和性质。在这个新的节点编码模式的基础上,构建了一种有效地集成结构索引和文本内容索引的混合索引结构HID。该混合索引结构HID能够有效地支持XML信息检索,包括关键词检索和结构化查询。对比实验结果表明本文所提出的新的混合索引结构HID在索引构建时间和空间消耗上具有较佳的性能。2)XML信息检索模型及查询处理算法的研究。提出了一种用于XML信息检索的模糊结构向量空间模型。通过将文本内容特征词的概念扩展为结构化特征词,对向量空间模型进行扩展,使其能够包含结构信息的匹配和度量;同时将特征词在文档中出现的概念由一个精确的集合隶属关系,扩展为一个模糊集合隶属度的概念,以实现内容和结构信息的整体匹配,而且能够区别结构的匹配程度,建模不同程度的匹配为不同程度的重要性。该检索模型可统一建模关键词查询、标记关键词查询和路径关键词查询。最后给出了有效实现检索模型相应的查询处理算法,并实现了一个XML信息检索原型系统。对比实验结果表明本文所构建的XML信息检索原型系统具有较高的检索准确率和较快的查询响应时间。3)XML信息检索相关反馈技术研究。提出了一种新的结合内容和结构的XML信息检索结构化相关反馈方法,能够有效地结合内容和结构特征等多种证据源,实现将初始的关键词查询扩展为内容+结构的结构化查询。该结构化相关反馈方法通过内容查询词扩展、查询词路径扩展和检索元素粒度相关反馈三种算法扩展初始的关键词查询。内容查询词的扩展和重新权重综合考虑了出现特征词的相关公共元素的数目、特征词在相关元素中的重要性、特征词邻接距离和结构语义等多种证据。实验结果表明本文所提出的结构化查询相关反馈方法可以有效地改进XML信息检索的准确率。4) XML信息:检索结果聚类技术研究。针对XML文档的特点,提出了一种新的结合内容和结构特征的XML文档特征建模方法,能够有效地度量XML信息检索结果文档片断间的相似性。将XML信息检索结果聚类问题建模为k-中心聚类问题,通过改进解决k-中心聚类问题的贪心算法,提出了一种新的XML信息检索结果快速聚类算法。实验结果表明基于本文所提出的XML文档特征建模方法和新的XML信息检索结果快速聚类算法实现了较好的聚类质量和较快的聚类速度。

全文目录


摘要  5-8
Abstract  8-11
目录  11-14
第一章 绪论  14-36
  1.1 研究背景  14-18
  1.2 相关研究  18-32
    1.2.1 支持全文本检索的XML查询语言  19-21
    1.2.2 XML数据上的关键词查询  21-24
    1.2.3 面向内容的XML文档检索  24-30
    1.2.4 内容+结构的XML文档检索  30-32
  1.3 研究内容  32-34
  1.4 本文结构  34-36
第二章 XML节点编码模式与索引结构  36-52
  2.1 XML文档模型  36-38
  2.2 节点编码模式  38-43
    2.2.1 基于范围的节点编码方法  38-39
    2.2.2 基于前辍的节点编码方法  39-40
    2.2.3 基于路径摘要和杜威编码的节点编码模式  40-43
  2.3 数据索引结构  43-46
    2.3.1 文本内容索引  43-44
    2.3.2 元素标记索引  44-45
    2.3.3 路径摘要索引  45-46
  2.4 实验评价  46-50
    2.4.1 实验设置  46-48
    2.4.2 结果分析  48-50
  2.5 小结  50-52
第三章 相关性打分模型及查询处理算法  52-72
  3.1 引言  52-54
  3.2 模糊结构向量空间模型  54-60
    3.2.1 文档描述  55
    3.2.2 查询表示  55-56
    3.2.3 返回结果文档片断  56
    3.2.4 结构化特征词出现的模糊度量  56-58
    3.2.5 结构化特征词的权重计算  58-60
    3.2.6 文档片断和查询的相似性  60
  3.3 XML信息检索查询处理算法  60-65
    3.3.1 简单关键词查询处理算法  61-63
    3.3.2 路径关键词查询处理算法  63-65
  3.4 实验评价  65-70
    3.4.1 实验环境设置  65-66
    3.4.2 实验评价方法  66-67
    3.4.3 实验结果分析  67-70
  3.5 小结  70-72
第四章 结合内容和结构的XML信息检索相关反馈  72-96
  4.1 引言  72-74
  4.2 相关工作  74-79
    4.2.1 向量空间模型中的相关反馈技术  75-76
    4.2.2 概率模型中的相关反馈技术  76-78
    4.2.3 XML信息检索中的相关反馈技术  78-79
  4.3 结合内容:和结构的XML信息检索相关反馈  79-88
    4.3.1 内容查询词的扩展和重新权重  79-84
    4.3.2 结构化查询扩展  84-87
    4.3.3 扩展关键词查询为内容+结构查询  87-88
  4.4 实验评价  88-95
    4.4.1 实验环境设置  88-89
    4.4.2 实验评价方法  89-90
    4.4.3 实验结果及分析  90-95
  4.5 小结  95-96
第五章 基于内容和结构的XML信息检索结果聚类  96-111
  5.1 引言  96-97
  5.2 相关工作  97-99
    5.2.1 查询结果聚类技术  97-98
    5.2.2 XML文档聚类技术  98-99
  5.3 基于FVSM模型的XML信息检索结果聚类  99-107
    5.3.1 问题定义  100-101
    5.3.2 特征建模  101-102
    5.3.3 距离度量  102-103
    5.3.4 解决k-中心聚类问题的贪心算法  103-105
    5.3.5 改进的k-中心聚类算法R-GreedKcenter  105-107
  5.4 实验评价  107-110
    5.4.1 实验设置  107
    5.4.2 结果分析  107-110
  5.5 小结  110-111
第六章 结论与展望  111-115
  6.1 本文工作总结  111-112
  6.2 未来工作展望  112-115
参考文献  115-128
致谢  128-129
读博期间所参加的科研项目  129
读博期间发表和录用的论文  129-130

相似论文

  1. Q学习在基于内容图像检索技术中的应用,TP391.41
  2. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  3. 隐式用户兴趣挖掘的研究与实现,TP311.13
  4. 图像分割中阴影去除算法的研究,TP391.41
  5. 基于图分割的文本提取方法研究,TP391.41
  6. 生物医学领域检索系统查询扩展技术研究,TP391.3
  7. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  8. 高血压前期证候特征研究,R259
  9. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  10. K-均值聚类算法的研究与改进,TP311.13
  11. 大学生综合素质测评研究,G645.5
  12. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  13. 21个荷花品种遗传多样性的ISSR分析,S682.32
  14. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  15. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  16. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  17. 南通市农业面源污染负荷研究与综合评价,X592
  18. 土壤环境功能区划研究,X321
  19. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  20. 大豆杂种优势及其遗传基础研究,S565.1
  21. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com