学位论文 > 优秀研究生学位论文题录展示
具有自然分组特性文本的分类研究
作 者: 卢敏
导 师: 黄亚楼
学 校: 南开大学
专 业: 计算机应用技术
关键词: 文本分类 自然分组数据 分组间协作 分组相关度 集成学习
分类号: TP391.1
类 型: 博士论文
年 份: 2013年
下 载: 25次
引 用: 0次
阅 读: 论文下载
内容摘要
文本分类问题是信息检索与数据挖掘领域的研究热点,具有广泛的实际应用,如垃圾邮件过滤、博客分类以及个人主页识别等。文本分类任务主要是在给定的类别集合下,根据文本的内容判定文本的类别。目前,基于机器学习的自动文本分类方法成为了解决文本分类问题的核心技术,其主要任务是从训练数据集中构建一个符合实际数据特性的分类模型,以预测未知文本的类别标签。在诸多文本分类应用场合,数据集常常可以自然地划分为若干个组。各个分组不是根据数据的分类标签划分的,也不是通过数据聚类形成的,而是数据集的一个具有客观物理意义的切分。例如,在垃圾邮件过滤任务中,邮箱是邮件客观存在的寄件人标号,可按邮箱对邮件进行分组。在具有自然分组数据的文本分类任务中,分组数据具有分组文本特性不同、分组样本规模不同以及组内正负例不均衡等数据特性,是分类过程中可以利用的先验知识。然而,传统分类算法忽略了分组数据上述特性,造成分类模型的偏差,制约分类性能。针对上述问题,本文开展自然分组数据上文本分类研究,旨在研究如何利用数据的自然分组信息以提升分类性能。本文并不探讨数据自然分组的形成原因,也不涉及如何从众多分组属性中选择最优分组属性的问题。针对具有自然分组数据的文本分类任务,本文开展了以下研究:首先,针对不同分组具有不同的文本特性,提出基于分组间协作的集成分类算法,以综合考虑训练数据集中所有分组的文本特性,避免分类模型丢失来自小规模分组以及组内样本失衡分组的文本特性。具体地,提出基于分类模型参数共享的分组上分类模型互训算法,使得各个分组上分类模型的训练除了利用其自身数据,还可借助于来自其他分组的分类数据,从而为训练数据中各个分组构建一个具有泛化性的分类模型。在得到各个分组上分类模型后,对各个分组上分类模型输出类别标签的概率进行融合。其次,针对自然分组之间存在相关度这一特性,在基于分组间协作的集成分类算法基础之上,提出融入分组相关度的集成分类算法,以进一步提升集成分类性能。具体地,将分组相关度作为一种正则化信息,引入到各个分组上分类模型构建的损失函数中,使得相似分组具有相似分类模型,为各个分组上分类模型的构建提供了额外的归纳偏置信息,必然为各个分组构建一个更具有泛化性的模型。由于在实际文本分类任务中,无法预知分组相关度。本文将分类模型参数和分组相关度融合到一个优化目标中,通过迭代优化策略从数据集中自动地学习分组相关度和各个分组上分类模型参数。最后,针对测试数据也存在自然分组特性,在融入分组相关度的集成分类算法基础之上,提出体现测试数据分组特性的分类预测算法,以充分利用测试数据的自然分组信息,更好预测未知文本的类别标签。具体地,提出基于代价敏感列表排序算法的测试数据融合权重学习算法,为每个测试数据构造具有考虑其分组信息的集成权重,使得与样本相似的分组上分类模型赋予较大的融合权重。基于学习得到的融合权重,对训练数据中各个分组上分类模型输出类别标签的概率进行融合,以输出未知文本的类别标签。为了验证本文提出算法的有效性,将本文所提的算法应用于垃圾邮件过滤任务、个人主页识别任务以及文档排序任务。在基准数据集上的实验结果表明,本文提出的算法在分类性能上有显著的提升,尤其是相比于未考虑数据自然分组特性的分类算法。此外,本文的研究成果还可应用于其他领域的具有自然分组数据的分类任务,推动相关领域的研究发展。
|
全文目录
摘要 6-8 Abstract 8-13 第一章 绪论 13-25 第一节 引言 13-14 第二节 自然分组数据上文本分类任务 14-18 1.2.1 垃圾邮件过滤任务 15-16 1.2.2 个人主页识别任务 16-17 1.2.3 文档排序任务 17-18 第三节 本文动因 18-19 第四节 本文主要研究内容与意义 19-22 1.4.1 研究内容 19-21 1.4.2 解决思路 21 1.4.3 研究意义 21-22 第五节 本文章节安排 22-25 第二章 相关研究方法综述 25-43 第一节 引言 25 第二节 文本分类相关综述 25-35 2.2.1 文本表示 27 2.2.2 特征学习 27-30 2.2.3 文本分类方法 30-35 2.2.4 分类模型的评估 35 第三节 与分组数据上分类相关的方法 35-40 2.3.1 隐式分组上学习算法 37-38 2.3.2 结构化预测算法 38-39 2.3.3 领域自适应学习算法 39-40 第四节 多分类器集成学习研究综述 40-42 2.4.1 子分类器生成研究 40-41 2.4.2 子分类器融合策略 41-42 第五节 本章小结 42-43 第三章 基于分组间协作的集成分类研究 43-67 第一节 引言 43-44 第二节 分组文本特性的定量分析 44-50 3.2.1 度量分组文本特性的数据集和方法 44-49 3.2.2 分组文本特性的实验结果 49-50 第三节 基于分组间协作的集成分类方法 50-59 3.3.1 基于模型参数共享的分组上分类模型的构建 51-56 3.3.2 分组上分类模型的集成 56-59 第四节 实验及分析 59-65 3.4.1 数据集、基准算法和评价指标 59-62 3.4.2 实验结果 62-64 3.4.3 算法有效性分析 64-65 第五节 本章小结 65-67 第四章 融入分组相关度的集成分类研究 67-91 第一节 引言 67-68 第二节 分组相关度定量分析 68-74 4.2.1 评估分组相关度的数据集和方法 68-71 4.2.2 分组相关性的实验结果 71-74 第三节 融入分组相关度的集成分类算法 74-82 4.3.1 融入分组相关度的分组上分类损失函数 75-76 4.3.2 融入分组相关度的分组上分类损失函数的优化 76-80 4.3.4 分组相关度矩阵求解的理论证明 80-82 第四节 实验及分析 82-89 4.4.1 数据集、基准算法和评价指标 82-86 4.4.2 实验结果 86-87 4.4.3 算法有效性分析 87-89 第五节 本章小结 89-91 第五章 体现测试数据分组特性的分类预测研究 91-109 第一节 引言 91-92 第二节 体现测试数据分组特性的分类预测算法 92-96 5.2.1 基于排序思想的测试数据融合权重学习的建模 93-94 5.2.2 基于代价敏感列表排序算法的测试数据融合权重学习算法 94-96 第三节 算法理论分析 96-99 5.3.1 测试数据融合权重学习算法的序保持 96-98 5.3.2 测试数据融合权重学习算法的泛化性 98-99 第四节 实验及分析 99-107 5.4.1 实验设置 99-101 5.4.2 实验结果 101-104 5.4.3 算法有效性分析 104-107 第五节 本章小结 107-109 第六章 结束语 109-113 第一节 论文工作成果 109-110 第二节 后续研究工作 110-113 参考文献 113-123 致谢 123-124 个人简历 124-125 在学期间研究成果 125-126
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的中文科技论文分类研究,TP391.1
- 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
- 基于粗糙集理论的文本分类研究,TP18
- 集合多标签文本分类研究,TP391.1
- 基于贝叶斯过滤的文本分类技术的研究与实现,TP393.098
- 基于内容的中文垃圾短信分类技术的研究,TP391.1
- 基于数据挖掘算法的蛋白质相互作用及其活性位点研究,TP311.13
- 基于基因表达谱的肿瘤分类方法研究,R730.2
- 中文文本分类算法研究,TP391.1
- 模糊理论在文本分类中的应用研究,O159
- 网络舆情预警辅助决策支持系统模型及关键技术研究,TP393.09
- 网络文本信息采集分析关键技术研究与实现,TP391.1
- 基于图模型的中文小样本文本分类研究,TP391.1
- 支持向量机算法设计及在高分辨雷达目标识别中的应用,TN957.52
- 学位论文预审分配管理系统研究,G311
- 在线股评与股票市场关系研究,F49
- 深度网爬虫及更新策略研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|