学位论文 > 优秀研究生学位论文题录展示

跨语言文本分类的研究

作　者: 刘越
导　师: 戴林
学　校: 北京理工大学
专　业: 计算机应用技术
关键词: 文本分类跨语言文本分类信息检索主动学习
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 28次
引　用: 0次
阅　读: 论文下载

内容摘要

跨语言文本分类(Cross Language Text Categorization,CLTC)的任务是从源语言的训练集中学习得到适用于目标语言的分类器。本文针对CLTC的两个关键问题,提出了两种算法。第一个关键问题是如何解决训练集和待分类文本之间的语言阻隔,本文针对这一问题提出了跨语言K近邻文本分类算法(Cross Language K Nearest Neighbors,CLKNN),从信息检索的角度来解决跨语言分类问题,仅仅需要一本双语词典作为外部资源,实验中取得比基于机器翻译方法更好的效果;第二个关键问题是主题漂变现象,即由于文化等因素,从属于同一类别的源语言文本和目标语言文本所包含的主题存在差异,以至于从源语言训练集上学习得到的分类器不能很好地适应目标语言。应对这个问题,本文提出了基于主动学习的跨语言文本分类方法,首先在翻译后的训练集上学习得到初始分类器,再利用主动学习技术,通过从未标注的目标语言文本中进一步学习使分类器更加适应目标语言。通过将源语言和目标语言作为同一文本的两种视图,本文进一步将算法扩充到了双视图模式,提出双视图主动学习算法(Double Viewed Active Learning)。实验表明,算法可以有效提升分类器对目标语言的适应性,从而获得更好的分类效果。

全文目录

摘要  5-6
ABSTRACT  6-10
第1章绪论  10-12
  1.1 研究背景与意义  10
  1.2 跨语言文本分类  10-11
  1.3 研究现状  11
  1.4 本文组织  11-12
第2章相关工作和本文的研究思路  12-24
  2.1 文本分类概述  12-18
    2.1.1 文本分类的一般定义  12
    2.1.2 文本预处理  12-13
    2.1.3 文本的表示  13-14
    2.1.4 特征空间降维  14-16
    2.1.5 特征权重计算  16-17
    2.1.6 分类器  17
    2.1.7 测试与性能评价  17-18
  2.2 跨语言文本分类主要方法概述  18-22
    2.2.1 基于翻译的方法  18-19
    2.2.2 基于多语言模型的方法  19
    2.2.3 基于语言知识库的方法  19-20
    2.2.4 利用目标语言未标注文本提升 CLTC 效果  20-21
    2.2.5 其他方法  21-22
  2.3 对现有方法的分析  22
  2.4 本文研究思路的提出  22-24
第3章跨语言 K 近邻文本分类算法  24-32
  3.1 K 近邻算法  24-25
  3.2 跨语言 K 近邻文本分类算法  25-32
    3.2.1 文本表示  25-28
    3.2.2 跨语言相似度计算方法  28-30
    3.2.3 类别判定  30-31
    3.2.4 算法流程  31-32
第4章基于双视图主动学习的跨语言文本分类算法  32-48
  4.1 问题分析  32-33
  4.2 主动学习框架  33-35
  4.3 基于 SVM 的算法实现  35-39
    4.3.1 SVM 分类算法  35-37
    4.3.2 SVM 得到概率输出  37-38
    4.3.3 分类确定度的计算  38-39
    4.3.4 算法流程  39
  4.4 双视图主动学习算法  39-48
    4.4.1 跨语言分类问题的两种视图  40-41
    4.4.2 双视图主动学习框架  41-44
    4.4.3 算法流程  44-48
第5章实验与分析  48-60
  5.1 数据集  48-49
    5.1.1 语料库建设  48
    5.1.2 文本预处理  48-49
  5.2 跨语言 K 近邻文本分类算法  49-53
    5.2.1 实验准备  49-50
    5.2.2 CLKNN 实验  50-52
    5.2.3 与 Baseline 的对比  52-53
    5.2.4 总结  53
  5.3 基于双视图主动学习的跨语言文本分类算法  53-60
    5.3.1 实验准备  54
    5.3.2 单视图主动学习实验  54-55
    5.3.3 双视图主动学习实验  55-57
    5.3.4 与Baseline 的对比  57-59
    5.3.5 总结  59-60
结论  60-62
参考文献  62-66
攻读学位期间发表论文与研究成果清单  66-67
致谢  67

跨语言文本分类的研究

内容摘要

全文目录

相似论文