学位论文 > 优秀研究生学位论文题录展示

基于贝叶斯理论的增量文本分类算法研究

作 者: 马后锋
导 师: 樊兴华
学 校: 重庆邮电大学
专 业: 计算机应用技术
关键词: 文本分类 贝叶斯 增量学习 半监督学习 AP算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 44次
引 用: 0次
阅 读: 论文下载
 

内容摘要


传统的文本分类算法需要大量的标注文本,但标注大量训练文本需要艰苦而缓慢的手工劳动,从而制约了整个分类系统的构建。增量学习技术可以利用少量的已标注文本对大量的未标注文本进行标注,可以有效解决标注瓶颈问题,因此逐渐引起人们的关注。由于贝叶斯方法能够充分利用先验知识,使它成为增量式文本分类的重要选择。基于0-1分类损失的增量贝叶斯分类算法是通过计算测试集中文本的分类损失大小来确定新增训练集中文本加入到原始训练集的顺序。但该算法存在下述三个问题:首先,噪音数据影响分类器精度的问题。由于当前分类器存在知识储备不足等因素而容易产生噪音数据,一旦这些噪音数据被过早地加入到原始训练集中,就会降低当前分类器的性能,进而影响整体分类精度。其次,新增训练集的规模影响增量学习效率的问题。当新增训练集规模过大时会增加增量学习时间。因此在处理大规模新增训练集时,如何提高效率成为增量学习的一个重要问题。此外,如何利用新增训练集中有用知识的问题。新增训练集中存在一种有用知识——具有高度相似性的文本,把这些文本作为一个整体来处理,它能够有效改善增量学习的性能。针对以上问题,本文提出的基于序列选择增量贝叶斯分类算法,该算法既通过选择合理的增量学习序列解决噪音数据影响分类器精度的问题,又通过基于划分的思想对新增训练集进行分割解决新增训练集规模影响增量学习效率的问题;还提出了基于快速聚类的增量贝叶斯分类算法来解决新增训练集中有用知识的利用问题,即通过近邻传播算法对新增训练集中的高度相似文本进行聚类,实现增量学习过程中的批量学习,从而显著提高了增量学习的效率。最后通过实验验证这些算法的有效性。

全文目录


摘要  3-4
Abstract  4-8
第一章 绪论  8-12
  1.1 论文选题背景  8-9
  1.2 国内外研究现状  9-10
  1.3 论文主要工作  10-11
  1.4 论文组织结构  11-12
第二章 文本分类增量学习技术基础  12-24
  2.1 文本分类技术  12-19
    2.1.1 文本分类的定义  12
    2.1.2 文本的表示模型  12-13
    2.1.3 文本特征项的权重  13-14
    2.1.4 特征选择和特征提取  14-17
    2.1.5 文本分类算法  17-19
  2.2 增量学习算法  19-23
    2.2.1 基于EM 的增量学习算法  20-21
    2.2.2 基于协同训练的增量学习算法  21-22
    2.2.3 基于实例的增量学习算法  22-23
    2.2.4 基于支持向量机的增量学习算法  23
    2.2.5 基于集成学习的增量学习算法  23
  2.3 小结  23-24
第三章 基于序列选择的增量贝叶斯分类算法  24-34
  3.1 引言  24
  3.2 基于贝叶斯的增量学习模型  24-26
  3.3 增量贝叶斯算法存在的问题和解决的策略  26-27
  3.4 基于序列选择的增量贝叶斯分类算法  27-30
    3.4.1 算法思想  27
    3.4.2 算法描述  27-30
  3.5 实验测试  30-33
    3.5.1 实验性能评估指标  30
    3.5.2 实验特征选择  30
    3.5.3 实验结果与分析  30-33
  3.6 小结  33-34
第四章 基于快速聚类的增量贝叶斯分类算法  34-47
  4.1 引言  34-35
  4.2 近邻传播(AP)聚类算法  35-37
  4.3 基于快速聚类的增量贝叶斯分类算法  37-42
    4.3.1 算法思想  37-39
    4.3.2 算法描述  39-42
  4.4 实验测试  42-46
    4.4.1 实验性能评估指标  42-43
    4.4.2 实验特征选择  43
    4.4.3 实验结果与分析  43-46
  4.5 小结  46-47
第五章 总结及未来工作  47-50
  5.1 总结  47-48
  5.2 未来工作  48-50
致谢  50-51
攻硕期间从事的科研工作及取得的研究成果  51-52
参考文献  52-56

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 多传感器信息融合及其在可穿戴计算机上的应用,TP202
  4. 黄磷储罐区安全评价方法研究,TQ126.317
  5. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  6. 黑麦草(Lolium perenne L.)代谢QTL定位与代谢网络构建,S543.6
  7. 语音信号的压缩感知研究及其在语音编码中的应用,TN912.3
  8. 城市轨道交通运营管理系统测试与评价方法研究,TP311.52
  9. 基于数据分布特征的文本分类研究,TP391.1
  10. 类药性和生物利用度的理论预测研究,R914
  11. 基于贝叶斯理论的社会化标注主题聚类模型研究,C93
  12. FPSO在石油卸载过程中的风险评估,U698
  13. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  14. 基于鱼眼相机的运动物体检测和跟踪,TP391.41
  15. 有序Probit模型的非参贝叶斯统计,O212.8
  16. 基于状态空间模型的赔款准备金的研究,F842.3
  17. 基于压缩感知的认知无线电频谱检测技术及其研究,TN925
  18. 认知无线电系统合作频谱感知中感知数据错误化攻击防御技术,TN925
  19. 基于改进的非参数回归交通流量预测方法,F570
  20. 基于压缩感知的多径信道估计及其研究,TN925
  21. 面向三网融合的故障管理系统的研究及实现,TP315

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com