学位论文 > 优秀研究生学位论文题录展示

具有自然分组特性文本的分类研究

作　者: 卢敏
导　师: 黄亚楼
学　校: 南开大学
专　业: 计算机应用技术
关键词: 文本分类自然分组数据分组间协作分组相关度集成学习
分类号: TP391.1
类　型: 博士论文
年　份: 2013年
下　载: 25次
引　用: 0次
阅　读: 论文下载

内容摘要

文本分类问题是信息检索与数据挖掘领域的研究热点,具有广泛的实际应用,如垃圾邮件过滤、博客分类以及个人主页识别等。文本分类任务主要是在给定的类别集合下,根据文本的内容判定文本的类别。目前,基于机器学习的自动文本分类方法成为了解决文本分类问题的核心技术,其主要任务是从训练数据集中构建一个符合实际数据特性的分类模型,以预测未知文本的类别标签。在诸多文本分类应用场合,数据集常常可以自然地划分为若干个组。各个分组不是根据数据的分类标签划分的,也不是通过数据聚类形成的,而是数据集的一个具有客观物理意义的切分。例如,在垃圾邮件过滤任务中,邮箱是邮件客观存在的寄件人标号,可按邮箱对邮件进行分组。在具有自然分组数据的文本分类任务中,分组数据具有分组文本特性不同、分组样本规模不同以及组内正负例不均衡等数据特性,是分类过程中可以利用的先验知识。然而,传统分类算法忽略了分组数据上述特性,造成分类模型的偏差,制约分类性能。针对上述问题,本文开展自然分组数据上文本分类研究,旨在研究如何利用数据的自然分组信息以提升分类性能。本文并不探讨数据自然分组的形成原因,也不涉及如何从众多分组属性中选择最优分组属性的问题。针对具有自然分组数据的文本分类任务,本文开展了以下研究：首先,针对不同分组具有不同的文本特性,提出基于分组间协作的集成分类算法,以综合考虑训练数据集中所有分组的文本特性,避免分类模型丢失来自小规模分组以及组内样本失衡分组的文本特性。具体地,提出基于分类模型参数共享的分组上分类模型互训算法,使得各个分组上分类模型的训练除了利用其自身数据,还可借助于来自其他分组的分类数据,从而为训练数据中各个分组构建一个具有泛化性的分类模型。在得到各个分组上分类模型后,对各个分组上分类模型输出类别标签的概率进行融合。其次,针对自然分组之间存在相关度这一特性,在基于分组间协作的集成分类算法基础之上,提出融入分组相关度的集成分类算法,以进一步提升集成分类性能。具体地,将分组相关度作为一种正则化信息,引入到各个分组上分类模型构建的损失函数中,使得相似分组具有相似分类模型,为各个分组上分类模型的构建提供了额外的归纳偏置信息,必然为各个分组构建一个更具有泛化性的模型。由于在实际文本分类任务中,无法预知分组相关度。本文将分类模型参数和分组相关度融合到一个优化目标中,通过迭代优化策略从数据集中自动地学习分组相关度和各个分组上分类模型参数。最后,针对测试数据也存在自然分组特性,在融入分组相关度的集成分类算法基础之上,提出体现测试数据分组特性的分类预测算法,以充分利用测试数据的自然分组信息,更好预测未知文本的类别标签。具体地,提出基于代价敏感列表排序算法的测试数据融合权重学习算法,为每个测试数据构造具有考虑其分组信息的集成权重,使得与样本相似的分组上分类模型赋予较大的融合权重。基于学习得到的融合权重,对训练数据中各个分组上分类模型输出类别标签的概率进行融合,以输出未知文本的类别标签。为了验证本文提出算法的有效性,将本文所提的算法应用于垃圾邮件过滤任务、个人主页识别任务以及文档排序任务。在基准数据集上的实验结果表明,本文提出的算法在分类性能上有显著的提升,尤其是相比于未考虑数据自然分组特性的分类算法。此外,本文的研究成果还可应用于其他领域的具有自然分组数据的分类任务,推动相关领域的研究发展。

全文目录

摘要  6-8
Abstract  8-13
第一章绪论  13-25
  第一节引言  13-14
  第二节自然分组数据上文本分类任务  14-18
    1.2.1 垃圾邮件过滤任务  15-16
    1.2.2 个人主页识别任务  16-17
    1.2.3 文档排序任务  17-18
  第三节本文动因  18-19
  第四节本文主要研究内容与意义  19-22
    1.4.1 研究内容  19-21
    1.4.2 解决思路  21
    1.4.3 研究意义  21-22
  第五节本文章节安排  22-25
第二章相关研究方法综述  25-43
  第一节引言  25
  第二节文本分类相关综述  25-35
    2.2.1 文本表示  27
    2.2.2 特征学习  27-30
    2.2.3 文本分类方法  30-35
    2.2.4 分类模型的评估  35
  第三节与分组数据上分类相关的方法  35-40
    2.3.1 隐式分组上学习算法  37-38
    2.3.2 结构化预测算法  38-39
    2.3.3 领域自适应学习算法  39-40
  第四节多分类器集成学习研究综述  40-42
    2.4.1 子分类器生成研究  40-41
    2.4.2 子分类器融合策略  41-42
  第五节本章小结  42-43
第三章基于分组间协作的集成分类研究  43-67
  第一节引言  43-44
  第二节分组文本特性的定量分析  44-50
    3.2.1 度量分组文本特性的数据集和方法  44-49
    3.2.2 分组文本特性的实验结果  49-50
  第三节基于分组间协作的集成分类方法  50-59
    3.3.1 基于模型参数共享的分组上分类模型的构建  51-56
    3.3.2 分组上分类模型的集成  56-59
  第四节实验及分析  59-65
    3.4.1 数据集、基准算法和评价指标  59-62
    3.4.2 实验结果  62-64
    3.4.3 算法有效性分析  64-65
  第五节本章小结  65-67
第四章融入分组相关度的集成分类研究  67-91
  第一节引言  67-68
  第二节分组相关度定量分析  68-74
    4.2.1 评估分组相关度的数据集和方法  68-71
    4.2.2 分组相关性的实验结果  71-74
  第三节融入分组相关度的集成分类算法  74-82
    4.3.1 融入分组相关度的分组上分类损失函数  75-76
    4.3.2 融入分组相关度的分组上分类损失函数的优化  76-80
    4.3.4 分组相关度矩阵求解的理论证明  80-82
  第四节实验及分析  82-89
    4.4.1 数据集、基准算法和评价指标  82-86
    4.4.2 实验结果  86-87
    4.4.3 算法有效性分析  87-89
  第五节本章小结  89-91
第五章体现测试数据分组特性的分类预测研究  91-109
  第一节引言  91-92
  第二节体现测试数据分组特性的分类预测算法  92-96
    5.2.1 基于排序思想的测试数据融合权重学习的建模  93-94
    5.2.2 基于代价敏感列表排序算法的测试数据融合权重学习算法  94-96
  第三节算法理论分析  96-99
    5.3.1 测试数据融合权重学习算法的序保持  96-98
    5.3.2 测试数据融合权重学习算法的泛化性  98-99
  第四节实验及分析  99-107
    5.4.1 实验设置  99-101
    5.4.2 实验结果  101-104
    5.4.3 算法有效性分析  104-107
  第五节本章小结  107-109
第六章结束语  109-113
  第一节论文工作成果  109-110
  第二节后续研究工作  110-113
参考文献  113-123
致谢  123-124
个人简历  124-125
在学期间研究成果  125-126

具有自然分组特性文本的分类研究

内容摘要

全文目录

相似论文