学位论文 > 优秀研究生学位论文题录展示
基于迁移学习的文本分类算法研究
作 者: 孙伟
导 师: 钱旭
学 校: 中国矿业大学(北京)
专 业: 计算机应用技术
关键词: 文本分类 迁移学习 特征降维 实例迁移 特征迁移
分类号: TP391.1
类 型: 博士论文
年 份: 2013年
下 载: 31次
引 用: 0次
阅 读: 论文下载
内容摘要
迁移学习技术因其领域间知识、技能和经验的迁移能力,已成为跨领域文本分类的重要手段和研究热点。本文通过总结迁移学习在文本分类中的应用与发展情况,针对目前该领域存在的一些问题、难点进行了分析和研究,并提出几种新的迁移学习算法。其中,针对文本分类中普遍存在的维数灾难及特征词义不明确,而易导致分类精度过低及过拟合等问题,提出了集特征选取与抽取为一体的特征降维方法—HLK;针对文本分类中源领域与目标领域间文本数据在数量及相似性等方面的特点,分别提出两种基于实例的迁移学习方法-CGTL与IDRTAT;针对源领域数据集与目标领域数据集中数据分布差异过大,提出一种基于特征的迁移学习算法-BFRTL,并通过实验验证了各算法有效性。
|
全文目录
摘要 5 Abstract 5-6 详细摘要 6-8 Detailed Abstract 8-14 1 绪论 14-24 1.1 研究背景及意义 14-15 1.1.1 研究背景 14-15 1.1.2 研究意义 15 1.2 文本分类发展过程 15-16 1.3 迁移学习研究现状 16-17 1.4 迁移学习在文本分类中的应用 17-20 1.5 研究内容及创新点 20-21 1.6 论文组织结构 21-22 1.7 本章小结 22-24 2 相关工作综述 24-40 2.1 文本分类 24-31 2.1.1 文本表示 24-25 2.1.2 文本分类算法 25-28 2.1.3 文本分类的任务与步骤 28-30 2.1.4 文本分类评价标准 30-31 2.2 迁移学习 31-38 2.2.1 迁移学习特点 31-32 2.2.2 迁移学习的研究内容 32-36 2.2.3 迁移学习的类型 36-38 2.2.4 迁移学习常用数据集 38 2.3 本章小结 38-40 3 一种改进的特征降维方法 40-56 3.1 特征降维的作用 40-41 3.2 常用特征降维方法 41-46 3.2.1 特征选择法 41-43 3.2.2 特征抽取法 43-46 3.3 一种改进的特征降维方法 46-50 3.3.1 HCD特征选取 47-48 3.3.2 LSA特征抽取 48-50 3.3.3 K-means聚类 50 3.4 实验结果与分析 50-55 3.4.1 实验数据 50 3.4.2 评价指标 50-51 3.4.3 实验设置 51 3.4.4 实验结果及分析 51-55 3.4.5 实验结论 55 3.5 本章小结 55-56 4 基于图模型的迁移学习算法 56-72 4.1 引言 56 4.2 相关知识介绍 56-57 4.2.1 聚类 56-57 4.2.2 图模型 57 4.2.3 文本间的相似性 57 4.3 基于图模型的迁移学习 57-62 4.3.1 算法思想 57-58 4.3.2 问题定义 58 4.3.3 算法实现 58-61 4.3.4 算法步骤 61-62 4.4 实验结果与分析 62-70 4.4.1 实验数据 62-64 4.4.2 评价指标 64-65 4.4.3 实验设置 65 4.4.4 实验结果及分析 65-70 4.4.5 实验结论 70 4.5 本章小结 70-72 5 基于动态重构模型的迁移学习算法 72-90 5.1 引言 72-74 5.2 相关知识介绍 74-75 5.3 基于数据集动态重构迁移模型 75-79 5.3.1 算法思想 75 5.3.2 问题定义 75-76 5.3.3 算法实现 76-78 5.3.4 算法步骤 78-79 5.4 实验结果与分析 79-89 5.4.1 实验数据 79-81 5.4.2 评价指标 81 5.4.3 实验设置 81-82 5.4.4 实验结果及分析 82-88 5.4.5 实验结论 88-89 5.5 本章小结 89-90 6 基于特征重构的迁移学习算法 90-108 6.1 引言 90 6.2 相关知识介绍 90-92 6.2.1 流形学习 90-91 6.2.2 最大间隔投影 91-92 6.3 基于特征重构的迁移模型 92-98 6.3.1 算法思想 92-93 6.3.2 问题定义 93 6.3.3 算法实现 93-97 6.3.4 算法步骤 97-98 6.4 实验结果与分析 98-106 6.4.1 实验数据 98-99 6.4.2 评价指标 99 6.4.3 实验设置 99-103 6.4.4 实验结果及分析 103-106 6.4.5 实验结论 106 6.5 本章小结 106-108 7 总结与展望 108-110 7.1 工作总结及创新性成果 108-109 7.2 进一步的工作 109-110 参考文献 110-116 致谢 116-117 作者简介 117 在学期间发表学术论文及参加科研工作情况 117
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于分类器融合的人脸识别研究,TP391.41
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的中文科技论文分类研究,TP391.1
- 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
- 基于粗糙集理论的文本分类研究,TP18
- 基于内容的中文垃圾短信分类技术的研究,TP391.1
- 中文文本分类特征提取方法的研究与实现,TP391.1
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 基于内容的商品图像分类技术研究,TP391.41
- 图像与文本数据间的异构迁移学习,TP391.41
- 面向快速人脸识别的特征降维,TP391.41
- 模糊理论在文本分类中的应用研究,O159
- 结合本体HowNet的中文文本分类研究,TP391.1
- 膜蛋白分类的特征提取算法和数据集构建技术研究,Q51
- 基于NMF垃圾邮件过滤系统研究,TP393.098
- 基于迁移学习理论的Markov检索模型,TP391.3
- 优化本体的迁移学习方法研究,TP391.1
- 异构信息源的领域人物信息抽取研究,TP391.1
- 基于信息几何的高阶纯相关模型及其应用,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|