学位论文 > 优秀研究生学位论文题录展示
基于文本机会发现的共识与非共识标签区分方法
作 者: 金鑫
导 师: 高岩
学 校: 东北大学
专 业: 计算机应用技术
关键词: 共识标签 非共识标签 关联词集合 KeyGraph算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 17次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Web2.0的迅速发展,标签作为其中一个典型的应用开始被越来越多的人所关注和使用。标签是与某个网络资源相关的一个简短的词或者短语,用户可以通过资源指定若干标签的方式对资源进行分类。标签这种由用户自己自由管理的特点充分利用了用户的知识,同时也为标签信息的处理带来了非常大的挑战。如何通过标签对资源进行合理的组织是当前的一个研究热点,已有的对于标签的研究,多数基于用户对标签的使用存在共识这一前提主要着眼于标签之间的相互关联,很少考虑标签同资源之间的关联。针对上述问题,本文通过对标签共识性的深入研究,提出共识标签和非共识标签的概念以及基于文本机会发现的共识与非共识标签的区分方法。本文首先分析标签使用的特点,详细分析共识标签和非共识标签的成因以及标签共识性的演化,给出共识标签和非共识标签的概念,提出共识与非共识标签区分方法的研究框架。共识与非共识标签的区分方法的基本原理:提取标签在特定博文上的共现词,合并标签在所有标记的博文上的共现词,构成标签的关联词集合;依据该集合判定标签为共识标签或非共识标签。在此基础上,本文给出基于KeyGraph算法的标签共现词选取算法和基于主观贝叶斯方法的共识标签判定算法。基于KeyGraph算法的标签共现词选取算法的核心是选取博文的关键词中与特定标签有密切关联的词汇作为标签的共现词,以此反映标签在特定博文上的语义。基于主观贝叶斯方法的共识标签判定算法的通过合并标签的所有共现词,形成标签的关联词集合,利用该集合反映标签使用的一般性规律。该算法以关联词集合作为输入数据,计算出标签为共识标签的概率,判定标签是否为共识标签。最后给出共识标签的两个应用:共识标签补充和标签关联词集合划分。共识标签补充用于为博文补充共识标签,标签关联词集合划分用于分析标签的不同语义。通过实验分析,验证了本文提出方法的有效性。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 引言 10-14 1.1 课题的背景和意义 10-11 1.2 研究目标和研究内容 11-12 1.3 论文的组织结构 12-14 第2章 研究基础 14-24 2.1 标签及大众分类法 14-18 2.1.1 大众分类法 14-15 2.1.2 标签的相关研究 15-18 2.2 文本机会发现 18-21 2.3 不确定性推理 21-23 2.4 本章小结 23-24 第3章 标签的共识性 24-36 3.1 标签共识性的分析 24-29 3.1.1 共识标签和非共识标签 24-25 3.1.2 非共识标签的成因 25-26 3.1.3 共识标签的特殊特性 26-28 3.1.4 标签共识性的演化 28-29 3.2 共识标签与非共识标签的区分 29-33 3.2.1 共识标签和非共识标签区分方法的执行过程 29-30 3.2.2 基于共现词的博文模型 30-32 3.2.3 基于关联词的标签模型 32-33 3.3 共识标签的应用 33-35 3.3.1 共识标签补充 33-34 3.3.2 标签关联词集合的划分 34-35 3.4 本章小结 35-36 第4章 基于KEYGRAPH算法的标签共现词选取算法 36-50 4.1 标签共现词选取算法的研究思路 36-37 4.2 KeyGraph算法提取博文关键词 37-38 4.3 标签共现词选取核心算法 38-41 4.3.1 标签共现词的选取依据 38-39 4.3.2 标签与博文关键词的关联度 39-40 4.3.3 基于层次遍历的标签共现词选取算法 40-41 4.4 相关实验 41-49 4.4.1 数据集 41-43 4.4.2 实验内容及结果分析 43-49 4.5 本章小结 49-50 第5章 基于主观贝叶斯方法的共识标签判定算法 50-58 5.1 标签关联词集合 50 5.2 基于主观贝叶斯方法的共识标签判定算法 50-54 5.2.1 共识标签判定算法的基本思路 51 5.2.2 高频关联词的判定 51-52 5.2.3 主观贝叶斯方法中相关参数的选取 52-53 5.2.4 共识标签判定算法的详细流程 53-54 5.3 相关实验 54-57 5.3.1 数据集 54 5.3.2 实验内容及结果分析 54-57 5.4 本章小结 57-58 第6章 共识标签的使用 58-68 6.1 共识标签补充 58-61 6.1.1 共识标签补充的研究思路 58 6.1.2 关键词——共识标签矩阵 58-59 6.1.3 标签与博文的关联度 59-60 6.1.4 标签与博文的关联权重 60 6.1.5 补充标签选取标准 60-61 6.1.6 共识标签补充的执行过程 61 6.2 标签关联词集合的划分 61-63 6.2.1 关联词集合划分的方法 62 6.2.2 关联词集合划分结果的含义 62-63 6.3 相关实验 63-67 6.3.1 共识标签补充相关实验 63-65 6.3.2 标签关联词集合划分的相关实验 65-67 6.4 本章小结 67-68 第7章 结束语 68-70 参考文献 70-74 致谢 74
|
相似论文
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 舌体特征的提取及融合分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 双传感器图像联合目标检测及系统实现研究,TP391.41
- 雾天或背光条件下图像清晰化算法研究及硬件实现,TP391.41
- 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
- 基于纹理特征的视频编码技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|