学位论文 > 优秀研究生学位论文题录展示
检索结果聚类中的类别标签抽取技术研究
作 者: 韩中华
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机技术
关键词: 检索结果 聚类 信息检索 语义标签
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 39次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络信息的日益膨胀,信息泛滥的状况日趋严重,而作为人们获取信息的主要手段的搜索引擎却面临着诸多新问题,如何快速地帮助用户获取特定的知识、如何引导用户并推送给用户相关信息,已然成为各个搜索引擎面临的日趋紧迫的任务。检索结果聚类能够最大限度地解决搜索引擎这一问题,提供用户引导、数据分布,其应用不仅在展现形式上,对于搜索引擎相关性排序、相关搜索等问题上均有较大帮助,对于文本数据检索、数字化图书馆管理、实体关系挖掘等领域也有非常广阔的应用前景。对于检索结果进行挖掘,生成恰当的引导性标签,辅助用户快速浏览网页内容,是检索结果聚类的主要目标。传统的聚类方法,一方面时间复杂度较高不能快速响应用户需求,另一方面不能生成高质量可读标签。本文通过对比分析传统方法的不足,结合搜索引擎快速响应的需求及用户引导高表意等方面的特定情景,提出了基于标签的排序模型,采用层次聚类的方法进行聚类,并最终抽取出代表性标签的基本方法。本文主要研究内容包括以下几方面:1、候选标签的抽取策略。在各语义信息的指导下,尽可能抽取全面而且质量好的候选标签,为后续工作提供良好的基础。2、采用排序模型对抽取标签进行排序,综合考虑资源特征、本体特征、用户行为特征、语义特征,生成聚类候选。同时对这类特征提出有针对性的资源挖掘方法。3、采用改进的层次聚类算法及多种语义资源进行类别合并,将不同维度上的各类相似标签进行合并。4、综合利用资源信息、用户行为信息指导标签的抽取,提出了一种有意义标签的抽取方法。本文最终通过多次实验验证了方法的有效性。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-21 1.1 项目背景 8-11 1.2 课题的研究目的和意义 11-12 1.3 术语定义 12-13 1.4 国内外研究现状 13-18 1.4.1 检索结果聚类研究现状 13-17 1.4.2 采用标签抽取方法原因 17-18 1.5 本课题定位及目标 18-21 第2章 候选标签的抽取及特征选取 21-32 2.1 标签抽取 21-22 2.2 特征选取 22-31 2.2.1 数据资源特征 23-25 2.2.2 用户行为特征 25-29 2.2.3 本体特征 29-30 2.2.4 语义特征 30-31 2.3 本章小结 31-32 第3章 标签排序、聚合与代表标签的选取 32-45 3.1 标签排序 32-38 3.1.1 基于SVM LIGHT的标签排序 32-33 3.1.2 实验数据组织 33-38 3.2 标签聚合 38-43 3.2.1 根据索引结果聚合的策略 39-41 3.2.2 自底向上的层次聚类策略 41-42 3.2.3 标签相似度 42-43 3.3 代表性标签的选取 43-44 3.3.1 邻接标签的粘接 43-44 3.3.2 互斥标签的取舍 44 3.4 本章小结 44-45 第4章 实验与评价 45-52 4.1 共性标签稳定性实验 45-47 4.2 与相关搜索的比较实验 47-49 4.2.1 高频随机短检索词比较实验 47-49 4.2.2 低频随机短检索词比较实验 49 4.3 短检索词查询扩展实验 49-51 4.4 本章小结 51-52 结论 52-53 参考文献 53-57 致谢 57
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于运动目标轨迹分析的智能交通监控系统,TP277
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- SAR干涉像对优化选取方法研究,P225.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|