学位论文 > 优秀研究生学位论文题录展示

基于社会化标注的查询扩展技术研究

作　者: 晋松
导　师: 林鸿飞
学　校: 大连理工大学
专　业: 计算机应用技术
关键词: 信息检索查询扩展社会化标注排序学习
分类号: TP391.3
类　型: 硕士论文
年　份: 2010年
下　载: 58次
引　用: 0次
阅　读: 论文下载

内容摘要

在信息检索任务中,查询扩展技术都表现出具有提高检索效果的能力。大多数基于文档集的查询扩展技术都是基于一个相关性假设,即初次检索结果中排名靠前的一部分文档是与原始查询相关的,并且可以当作是原始查询的上下文信息。因此,这些文档可以用做查询扩展的扩展词来源。但是,当初次检索结果过程中相关性文档不多时,依然利用以上提出的相关性假设,从不相关文档中提取扩展词,这些扩展词就可能与原始查询不相关,从而影响查询扩展技术的检索性能。许多研究表明利用外部资源作为扩展词的来源,能够有效避免由于初次检索的文档不相关对查询扩展技术性能的影响。随着Web 2.0的发展,大量社会化标注信息出现在互联网上。在社会化标注体系中,用户根据自己的兴趣爱好,利用自由的词汇对网络资源进行标注。研究表明,这种社会化标注资源可以用来帮助提高信息检索的效果,但是,关于利用社会化标注资源作为扩展词资源,用以提高查询扩展性能的研究仍比较少见。本文主要研究利用社会化标注信息作为扩展词资源对传统查询扩展技术的改进。首先,本文探讨并挖掘出社会化标注信息作为扩展词资源的可能性,通过对从社会化标注中挖掘出来的扩展词进行分析,发现社会化标注信息可以为原始查询提供语义相关的扩展词。在此发现基础上,本文提出了三种基于社会化标注资源的扩展词挖掘方法：(1)基于词共现统计的扩展词挖掘方法；(2)基于词依赖的扩展词挖掘方法；(3)基于排序学习的扩展词挖掘方法。在基于词共现统计的扩展词挖掘方法中,充分分析了社会化标注的产生机制,利用标签之间的语义关联性,为原始查询挖掘出语义关联的扩展词。在该方法基础上,我们着重考虑了原始查询中词项之间的依赖关系,并提出了基于词依赖的扩展词挖掘方法。对于挖掘出来的扩展词,我们利用基于排序学习的方法,根据扩展词对检索效果的潜在影响程度,对其进行二次排序,从而挖掘出能够有效提高检索性能的扩展词。在标准TREC数据集的实验表明,本文提出的三种基于社会化标注的查询扩展方法能够有效的提高检索性能,尤其在利用基于排序学习的方法对扩展词进行二次排序之后,相对于原始查询和相关性模型的检索效果,基于排序学习的方法检索性能评价提高了34.3%和14.35%。这表明排序学习方法能够为传统的查询扩展技术提高较大帮助。最后,本文的实验表明,社会化标注资源可以作为查询扩展技术中扩展词的来源,并且能够为原始查询提供足够相关的扩展词。

全文目录

摘要  4-5
Abstract  5-8
1 绪论  8-11
  1.1 研究背景  8
  1.2 查询扩展技术的作用与意义  8-9
  1.3 查询扩展技术的研究现状  9-10
  1.4 论文的组织结构  10-11
2 查询扩展的相关技术及实现方法  11-19
  2.1 信息检索模型  11-15
    2.1.1 向量空间模型  11-12
    2.1.2 概率模型  12-14
    2.1.3 统计语言模型  14-15
  2.2 查询扩展方法的相关技术  15-18
    2.2.1 基于查询文档集的查询扩展技术  15-17
    2.2.2 基于外部扩展资源的查询扩展技术  17-18
  2.3 本章小结  18-19
3 社会化标注  19-23
  3.1 社会化标注简介  19
  3.2 社会化标注的产生机制  19-20
  3.3 基于社会化标注的相关研究工作  20-21
  3.4 社会化标签之间的语义相关性  21-22
  3.5 社会化标注数据集  22
  3.6 本章小结  22-23
4 基于社会化标注的查询扩展技术  23-42
  4.1 基于词共现统计的查询扩展方法  23-26
    4.1.1 基于共现统计的标签挖掘方法  23-24
    4.1.2 扩展标签的权重分配方法  24
    4.1.3 实验设计  24
    4.1.4 实验结果  24-26
  4.2 基于词依赖共现的查询扩展方法  26-31
    4.2.1 词依赖假设的提出  26-27
    4.2.2 基于词顺序依赖假设的扩展词挖掘方法  27
    4.2.3 实验设计  27-28
    4.2.4 实验结果  28-31
  4.3 社会化标注资源的有效性  31-34
    4.3.1 扩展词对查询扩展影响的估计  31
    4.3.2 社会化标注集的评估  31-33
    4.3.3 相关扩展词对检索性能的影响  33-34
  4.4 基于排序学习的查询扩展方法  34-41
    4.4.1 排序学习的介绍  34
    4.4.2 基于ListNet的标签选取方法  34-36
    4.4.3 特征选取方法  36-37
    4.4.4 扩展词相关性评价标准  37-38
    4.4.5 候选扩展词重排序实验  38-39
    4.4.6 重排序扩展词对检索性能的影响  39-40
    4.4.7 查询扩展实验的参数选择  40-41
  4.5 本章小结  41-42
结论  42-43
参考文献  43-47
攻读硕士学位期间发表学术论文情况  47-48
致谢  48-49

相似论文

生物医学领域检索系统查询扩展技术研究,TP391.3
面向海量邮件的检索系统研究与实现,TP393.098
网络搜索引擎的相关技术研究,G354
基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
基于贝叶斯理论的社会化标注主题聚类模型研究,C93
基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
基于稀疏非负矩阵分解的图像检索,TP391.41
跨语言文本分类的研究,TP391.1
基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
基于社会化标注的网页检索研究,TP393.092
排序学习损失函数的研究,TP181
基于点击的用户聚类的研究,TP311.13
英汉跨语言问答系统中的文档语义检索,TP391.1
面向概念查询的生物医学多文档摘要技术研究,TP391.1
基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
基于Web的医学文献数据库的设计与实现,TP311.13
基于语义Web的信息检索技术研究,TP391.3
基于OWL的地名本体构建与检索机制研究,P208
面向地名本体服务的空间信息检索研究,P208
基于内容与链接的页面价值算法研究,TP393.092
基于对等网络的搜索引擎关键技术研究,TP391.3