学位论文 > 优秀研究生学位论文题录展示
异构信息网络检索技术研究
作 者: 刘钰峰
导 师: 李仁发
学 校: 湖南大学
专 业: 计算机科学与技术
关键词: 异构信息网络 信息检索 半监督学习 文本聚类 聚类结果描述 查询推荐
分类号: TP391.3
类 型: 博士论文
年 份: 2014年
下 载: 14次
引 用: 0次
阅 读: 论文下载
内容摘要
现实世界中各种信息对象和它周围的信息对象都在不同方面、不同层次,以不同方式相互影响、相互作用着,从而组成了复杂的信息网络。信息网络不仅能帮助我们更好的表达和存储现实世界中的本质信息,而且通过对信息网络中的联接信息进行分析,它可以作为一种挖掘现实世界中隐藏信息的有用工具。因此,从信息网络中挖掘信息获取知识已成为当前的研究热点之一。本文在分析了信息网络尤其是异构信息网络的研究现状的基础上,通过分析信息文档及其相关对象的关系构建异构信息网络,研究了半监督学习、文档聚类、检索结果聚类标签抽取以及查询推荐等信息检索中的关键技术。论文的主要研究工作和创新点如下:(1)提出了针对查询和文档的内容特征以及点击关系构造异构信息网络及半监督学习的框架。根据查询和文档自身内容特征分别构造基于特征的相似图,同时基于查询和文档之间的点击关系构建查询-文档二部图,并引入标记样本的判别信息强化网络结构。提出了查询-文档异构信息网络上半监督学习的正则化框架和标记传播算法。在给出少量标签的情况下,本文方法能更充分的利用查询和文档本身的内容信息,并借助于相互之间的关系互相传播,实验表明本文方法优于传统的半监督学习方法比较。(2)为包含多种类型和联系的高阶异构信息网络建立了图正则化的半监督学习框架。在该框架中,使用图正则化区分了不同类型联系的语义,提出了一种能充分保留标记样本和未标记样本共同揭示的空间结构的光滑性的代价函数,并得到了该代价函数的闭式解。提出了高阶异构信息网络上的标记传播算法,标记信息从标记节点不断向邻近节点传播直至稳定状态,证明了标记传播算法将收敛于代价函数的闭式解。在该框架之下,一些经典的半监督学习算法可以作为其特例存在。(3)针对查询-文档富文本异构信息网络提出了两种不同的主题传播模型:TP-TS和TP-Unify。TP-TS把主题建模和随机漫步看成是两个独立的过程,首先通过潜在概率主题分析(PLSA)对文本内容构建主题模型,然后主题信息在异构的查询-文档二部图互相传播,从而揭示不同节点的主题并进行类别划分。TP-Unify把异构信息网络上异构节点之间的一致性约束引入主题分析,在进行主题建模的同时结合了网络结构分析技术。(4)提出了一种新的类别标签抽取的方法,其基本思想是把类别标签抽取转化为与类簇相关的查询词的排序问题,从而避免了从网页文档簇中抽取主题词的操作。提出了一种融合查询-网页点击图、网页相似图以及链接图对查询词和网页进行联合排序的算法,该算法能有效的整合用户、网页创建者和网页写作者对网页的评价。(5)把基于日志分析和基于语义分析的查询推荐技术结合起来,通过构造Term-Query-URL异构信息网络同时分析日志信息及语义信息,采用基于查询的重启动随机游走进行查询推荐。借助于点击日志进行协同推荐,在高频查询上能取得很好的效果,采用基于文档的方法训练词汇和查询词之间的语义关系,可以提高稀疏查询的推荐效果。在大规模商业搜索引擎查询日志上的实验表明本文方法优于现有的查询推荐方法。
|
全文目录
摘要 5-7 Abstract 7-13 插图索引 13-14 附表索引 14-15 第1章 绪论 15-24 1.1 引言 15 1.2 信息网络 15-18 1.2.1 信息网络的定义 15-16 1.2.2 同构信息网络和异构信息网络示例 16-17 1.2.3 研究异构信息网络的意义 17-18 1.3 信息检索 18-20 1.4 本文的研究内容 20-21 1.5 本文的组织结构 21-24 第2章 相关研究 24-45 2.1 引言 24 2.2 信息网络的分类体系 24-27 2.3 基于异构信息网络的聚类 27-35 2.3.1 二部图上的聚类算法 28-30 2.3.2 三部图上的聚类算法 30-31 2.3.3 双类型信息网络及星形信息网络上的聚类算法 31-33 2.3.4 带属性的异构信息网络上的聚类算法 33-35 2.3.5 基于异构信息网络的聚类小结 35 2.4 基于图的半监督学习 35-41 2.4.1 半监督学习的主要分类 35-36 2.4.2 半监督学习的基本假设 36 2.4.3 基于图的半监督学习 36-40 2.4.3.1 基于标记传播的半监督学习 37 2.4.3.2 基于图正则化的半监督学习理论 37-38 2.4.3.3 基于高斯随机场(Gaussian Fields)的半监督学习算法 38 2.4.3.4 基于局部与全局一致性的半监督学习算法 38-39 2.4.3.5 基于流形正则化的半监督学习算法 39-40 2.4.4 多视图异构信息网络上的半监督学习 40 2.4.5 基于图的半监督学习小结 40-41 2.5 信息检索中的排序算法 41-44 2.5.1 相关性排序 41-42 2.5.2 基于链接的排序算法 42-43 2.5.3 异构环境下的排序算法 43-44 2.6 小结 44-45 第3章 基于查询-文档异构信息网络的半监督学习 45-59 3.1 引言 45 3.2 问题描述和定义 45-47 3.3 构建查询-文档异构信息网络 47-51 3.3.1 查询-文档异构信息网络 47-48 3.3.2 边的构造 48-49 3.3.3 结合判别信息的查询-文档异构信息网络构建算法 49-51 3.4 基于查询-文档异构信息网络的半监督学习 51-54 3.4.1 正则化框架 51-53 3.4.2 标记传播算法 53-54 3.5 实验与分析 54-57 3.5.1 数据集 54 3.5.2 性能评价 54-57 3.6 小结 57-59 第4章 高阶异构信息网络上的图正则化半监督学习 59-71 4.1 引言 59-60 4.2 异构信息网络对半监督学习的挑战 60-61 4.3 问题描述和定义 61 4.4 一致性假设 61-62 4.5 正则化框架 62-65 4.6 高阶异构信息网络上的标记传播算法 65-66 4.7 与其他算法的联系 66 4.8 实验与分析 66-70 4.8.1 数据集 66-67 4.8.2 性能评价 67-69 4.8.3 不同参数对模型的影响 69-70 4.9 小结 70-71 第5章 基于查询-文档富文本异构信息网络的主题传播算法 71-85 5.1 引言 71-72 5.2 概率潜在语义模型 72-73 5.3 构建查询-文档二部图 73-74 5.4 两阶段的主题传播算法 74-77 5.4.1 查询-文档二部图上两阶段的主题传播算法 74-76 5.4.2 正则化框架 76-77 5.5 统一的主题传播算法 77-80 5.6 实验与分析 80-84 5.6.1 数据集 80-81 5.6.2 聚类性能评价 81-82 5.6.3 两阶段主题传播算法参数讨论 82-83 5.6.4 统一主题传播算法参数讨论 83-84 5.7 小结 84-85 第6章 检索结果聚类标签抽取与网页重排序 85-97 6.1 引言 85-86 6.2 类别标签抽取技术 86-87 6.3 融合多种视图的查询文档排序 87-92 6.3.1 基本思想 87-89 6.3.2 基于查询-文档二部图的排序算法 89-90 6.3.3 结合查询-文档二部图、文档相似图和链接图的排序算法 90-92 6.4 基于查询词排序的关键概念提取 92-93 6.5 实验与分析 93-96 6.5.1 数据集 93 6.5.2 聚类结果描述评价 93-94 6.5.3 簇内文档排序评价 94-96 6.6 小结 96-97 第7章 基于 TERM-QUERY-URL 异构信息网络的查询推荐 97-107 7.1 引言 97-98 7.2 当前查询推荐技术面临的问题 98 7.2.1 基于日志分析的查询推荐 98 7.2.2 基于语义分析的查询推荐 98 7.3 基于 TERM-QUERY-URL 异构信息网络的查询推荐 98-103 7.3.1 Term-Query 二部图模型 99 7.3.2 Query-Flow 图模型 99-100 7.3.3 Term-Query-URL 异构信息网络模型 100-101 7.3.4 基于 Term-Query-URL 异构信息网络的查询推荐 101-103 7.4 实验与分析 103-106 7.4.1 数据集 103 7.4.2 实验设计及结果分析 103-106 7.5 小结 106-107 结论 107-109 参考文献 109-122 致谢 122-123 附录 A 攻读学位期间发表的学术论文目录 123-124 附录 B 攻读学位期间主持或参研的项目目录 124
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 应用层协议识别和还原方法的研究与实现,TP393.08
- 基于Web的未登录词翻译技术研究,TP391.2
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 英汉可比较语料库的构建与应用研究,TP391.1
- 外文数据库无障碍信息检索的策略研究,G354
- 基于因特网的动态规范词表的系统构建研究,G354
- 基于Struts2框架的安全教育管理信息系统研究,TP311.52
- 面向军事知识的自动问答系统的设计与实现,TP311.52
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 数据库中基于多索引段的全文索引研究,TP311.13
- 基于分布式的垂直搜索引擎的研究与实现,TP391.3
- 面向行业搜索引擎的研究与实现,TP391.3
- 音频特征与社会标签相结合的音乐推荐系统,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 隐私保护信息检索协议及其应用研究,TP393.08
- 基于词语权重的中文文本分类算法的研究,TP391.1
- 全文检索系统研究,TP391.3
- 基于稀疏非负矩阵分解的图像检索,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|