学位论文 > 优秀研究生学位论文题录展示
问答式社区的标签推荐技术研究
作 者: 高兵
导 师: 王晓龙
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 问答式社区 关键词抽取 协同过滤 标签推荐
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 85次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的发展,基于Web2.0的互联网服务模式也越来越多种多样,问答式社区正是在此背景下应运而生,它的出现不仅为用户提供了知识交流与分享的平台,同时也与传统的自动问答技术形成互补。互联网技术发展的同时带来的问题是网络上的信息总量呈爆炸式增长,这就要求一种合理、有效的方式来组织这些数据,问答式社区也面临这样的问题。基于分众分类学的标签式在线浏览与数据组织技术很好的解决了这样的问题。与传统的自顶向下的层次分类式体系不同,标签的方式更加直观、灵活,可以从多个维度,不同层次为任意形式的网络资源提供标引,并由此为用户提供灵活多变的浏览方式。同时,用户可以使用任意词汇对网络资源进行标注,具有极高的易用性,使得新兴的网络资源能够更容易的被索引和浏览。然而在具备众多优势的同时,标签方式同样存在缺点,主要表现于以下两个方面:1)数据稀疏问题,由于标签式浏览是一种新兴的信息组织方式,在中文资源中,采用这种组织方式的网络资源过少。2)用户自行输入标签的模式虽然能够带来极大的便利性,但同时也造成了标签噪声较多的问题,对标签的实用性造成了不小障碍。为解决以上问题,近年来,标签推荐技术受到了较为广泛的关注。通常,标签推荐技术为用户提供一系列高质量的标签作为候选,用户可以从中选取自己满意的标签以达到其标注目的。标签推荐技术通过将“输入”简化为“选择”,大大方便了用户的标注行为,从而达到鼓励用户提供更多标签的目的。本文的主要研究内容如下,1)通过分析国内外典型的问答式社区的特点以及服务模式,设计并实现了一个问答式社区,它提供IT领域的知识服务,并通过标签方式组织社区内资源。2)采集网络现存的问答对资源,为问答社区的资源采集和标签推荐技术的研究做好数据的准备。3)针对问答资源的标签稀疏问题,重点研究了针对短文本语料的标签推荐技术,通过综合分析现有的标签推荐技术以及关键词抽取、查询扩展等相关技术,提出了标签推荐技术的算法框架,着重研究了基于协同过滤和关键词抽取相结合的标签池采集算法以及基于排序支持向量机的标签排序技术,取得了良好的实验结果。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-17 1.1 课题背景和研究意义 9-10 1.2 问答社区及标签推荐研究现状 10-14 1.2.1 问答式社区 11-12 1.2.2 标签整理与组织 12 1.2.3 标签推荐技术 12-14 1.3 本文的主要研究内容 14-15 1.4 本文的组织结构 15-17 第2章 问答社区及资源采集 17-29 2.1 引言 17 2.2 问答式社区概述 17-20 2.3 系统开发环境及运行平台 20-21 2.3.1 开发环境的选取 20-21 2.3.2 系统运行平台 21 2.4 系统架构及功能设计 21-24 2.4.1 用户管理系统 22-23 2.4.2 问答社区 23-24 2.5 数据库设计 24 2.6 资源采集及数据整理 24-28 2.6.1 百度知道资源的采集和整理 26 2.6.2 百度知识掌门人资源的采集与整理 26-27 2.6.3 天涯问答资源的采集与整理 27-28 2.7 本章小结 28-29 第3章 标签抽取算法研究 29-40 3.1 引言 29-30 3.2 候选标签采集生成算法 30-33 3.2.1 中文分词 30-32 3.2.2 词性标注 32-33 3.2.3 停用词过滤 33 3.3 标签抽取算法 33-36 3.3.1 基于词频的标签抽取 33-35 3.3.2 基于支持向量机的标签抽取 35-36 3.4 实验及结果评测 36-39 3.4.1 评测数据集及实验设定 36-37 3.4.2 实验结果及分析 37-39 3.5 本章小结 39-40 第4章 标签生成算法研究 40-51 4.1 引言 40-41 4.2 候选标签采集生成算法 41-46 4.2.1 基于协同过滤的标签池生成算法 41-44 4.2.2 基于协同过滤与关键词抽取相结合的标签池生成算法 44-45 4.2.3 基于协同过滤与相关扩展的标签池生成算法 45-46 4.3 标签排序算法 46-48 4.3.1 基于投票的标签排序 46-47 4.3.2 基于排序支持向量机的标签排序 47-48 4.4 实验及结果评测 48-49 4.4.1 评测数据集及实验设定 48-49 4.4.2 实验结果及分析 49 4.5 本章小结 49-51 结论 51-53 参考文献 53-58 致谢 58
|
相似论文
- 基于自然遗忘的个性化推荐算法研究,TP311.52
- 基于蚁群算法的移动商务个性化推荐体系研究,TP391.3
- 基于协同过滤的用户兴趣发现,TP391.3
- 基于SCOT的语义标签推荐模型及算法研究,TP391.3
- 基于信息型模型的音乐推荐算法,TP391.3
- 基于社会化标签体系的个性化推荐引擎技术研究,TP391.3
- 基于GPU的图书推荐系统研究与实现,TP391.3
- 基于社会标签系统的推荐技术研究,TP391.3
- 基于特征向量的个性化推荐算法研究,TP391.3
- 动态推荐技术的研究及在个性化电子警务中的应用,D631.1
- Agent电子商务推荐系统下协同过滤技术研究,F713.36
- 基于点击数据分析的个性化搜索引擎研究,TP391.3
- 协同过滤推荐系统中用户概貌攻击检测算法研究,TP393.08
- 协同过滤优化算法的研究与实现,TP301.6
- 个性化推荐技术在网络教学中的应用研究,TP391.3
- 面向主题的博客资源挖掘关键技术研究,TP393.09
- 基于本体的社保审计知识库的构建研究,TP391.1
- 中文事件模式自动生成方法的研究和实现,TP393.09
- 科技论文关键词抽取技术的研究,TP391.1
- 大规模中英可比较语料库构建,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|