学位论文 > 优秀研究生学位论文题录展示
跨语言文本分类的研究
作 者: 刘越
导 师: 戴林
学 校: 北京理工大学
专 业: 计算机应用技术
关键词: 文本分类 跨语言文本分类 信息检索 主动学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 28次
引 用: 0次
阅 读: 论文下载
内容摘要
跨语言文本分类(Cross Language Text Categorization,CLTC)的任务是从源语言的训练集中学习得到适用于目标语言的分类器。本文针对CLTC的两个关键问题,提出了两种算法。第一个关键问题是如何解决训练集和待分类文本之间的语言阻隔,本文针对这一问题提出了跨语言K近邻文本分类算法(Cross Language K Nearest Neighbors,CLKNN),从信息检索的角度来解决跨语言分类问题,仅仅需要一本双语词典作为外部资源,实验中取得比基于机器翻译方法更好的效果;第二个关键问题是主题漂变现象,即由于文化等因素,从属于同一类别的源语言文本和目标语言文本所包含的主题存在差异,以至于从源语言训练集上学习得到的分类器不能很好地适应目标语言。应对这个问题,本文提出了基于主动学习的跨语言文本分类方法,首先在翻译后的训练集上学习得到初始分类器,再利用主动学习技术,通过从未标注的目标语言文本中进一步学习使分类器更加适应目标语言。通过将源语言和目标语言作为同一文本的两种视图,本文进一步将算法扩充到了双视图模式,提出双视图主动学习算法(Double Viewed Active Learning)。实验表明,算法可以有效提升分类器对目标语言的适应性,从而获得更好的分类效果。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第1章 绪论 10-12 1.1 研究背景与意义 10 1.2 跨语言文本分类 10-11 1.3 研究现状 11 1.4 本文组织 11-12 第2章 相关工作和本文的研究思路 12-24 2.1 文本分类概述 12-18 2.1.1 文本分类的一般定义 12 2.1.2 文本预处理 12-13 2.1.3 文本的表示 13-14 2.1.4 特征空间降维 14-16 2.1.5 特征权重计算 16-17 2.1.6 分类器 17 2.1.7 测试与性能评价 17-18 2.2 跨语言文本分类主要方法概述 18-22 2.2.1 基于翻译的方法 18-19 2.2.2 基于多语言模型的方法 19 2.2.3 基于语言知识库的方法 19-20 2.2.4 利用目标语言未标注文本提升 CLTC 效果 20-21 2.2.5 其他方法 21-22 2.3 对现有方法的分析 22 2.4 本文研究思路的提出 22-24 第3章 跨语言 K 近邻文本分类算法 24-32 3.1 K 近邻算法 24-25 3.2 跨语言 K 近邻文本分类算法 25-32 3.2.1 文本表示 25-28 3.2.2 跨语言相似度计算方法 28-30 3.2.3 类别判定 30-31 3.2.4 算法流程 31-32 第4章 基于双视图主动学习的跨语言文本分类算法 32-48 4.1 问题分析 32-33 4.2 主动学习框架 33-35 4.3 基于 SVM 的算法实现 35-39 4.3.1 SVM 分类算法 35-37 4.3.2 SVM 得到概率输出 37-38 4.3.3 分类确定度的计算 38-39 4.3.4 算法流程 39 4.4 双视图主动学习算法 39-48 4.4.1 跨语言分类问题的两种视图 40-41 4.4.2 双视图主动学习框架 41-44 4.4.3 算法流程 44-48 第5章 实验与分析 48-60 5.1 数据集 48-49 5.1.1 语料库建设 48 5.1.2 文本预处理 48-49 5.2 跨语言 K 近邻文本分类算法 49-53 5.2.1 实验准备 49-50 5.2.2 CLKNN 实验 50-52 5.2.3 与 Baseline 的对比 52-53 5.2.4 总结 53 5.3 基于双视图主动学习的跨语言文本分类算法 53-60 5.3.1 实验准备 54 5.3.2 单视图主动学习实验 54-55 5.3.3 双视图主动学习实验 55-57 5.3.4 与Baseline 的对比 57-59 5.3.5 总结 59-60 结论 60-62 参考文献 62-66 攻读学位期间发表论文与研究成果清单 66-67 致谢 67
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 流形学习的方差最小化准则,TP181
- 特定领域中文术语抽取,TP391.1
- 排序学习损失函数的研究,TP181
- 基于语义分析的文本挖掘研究,TP391.1
- 基于点击的用户聚类的研究,TP311.13
- 英汉跨语言问答系统中的文档语义检索,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|