学位论文 > 优秀研究生学位论文题录展示

文本分类中的贝叶斯特征选择

作 者: 冯国忠
导 师: 郭建华
学 校: 东北师范大学
专 业: 概率论与数理统计
关键词: 贝叶斯模型选择 文本分类 生成模型 图模型 朴素贝叶斯 支撑树 MCMC
分类号: O212.8
类 型: 博士论文
年 份: 2011年
下 载: 130次
引 用: 1次
阅 读: 论文下载
 

内容摘要


由于人们获取电子文档的能力不断增强,管理这些文档的需求也不断增加,人们对文本自动分类,即将文本自动分入预先定义的类别结构中的兴趣正迅速高涨。而文本分类中的一个重要问题就是特征选择,其目的是改善分类效果、提高计算效率、或者两者兼得。由于现实中的文本数据集往往存在着类别不均衡性以及特征稀疏性等特点,因此通过衡量特征与类别结构关系的不同侧面来判断各个特征的类别性质的过滤式方法会表现得比较差。此外,它们要么仅仅选择与类别相关的特征,要么在选择相关特征之后添加一个冗余性分析步骤。显然,这样的方法是会丢失具有交互作用的特征的。本文将特征选择放在训练的过程中,通过学习的方法从一个带标签的文档集中学习类别结构属性,进而选择出最优的特征子集。我们给出了一个生成模型,通过引入一个两值“排除包含”的潜在向量来处理特征选择问题,最后使用一个高效的Metropolis搜索的方法来更新这个潜在向量。我们用边来刻画特征之间的相互关系,定义特征与类别的相关性。最后,我们将特征选择问题转换成了一个优化问题。在朴素贝叶斯结构假设下,我们给出了一个贝叶斯特征选择范例,得到了贝叶斯类别特征因子,以及考虑特征类别性质不确定性的贝叶斯特征平均分类器。在树结构假设下,我们能在选择出交互作用特征的同时消去冗余特征。通过采用多重条件独立性检验确定特征支持图,并对树结构和参数采用可分解先验之后,问题变得易于处理了。实验结果证明了本文方法的有效性。

全文目录


中文摘要  4-5
英文摘要  5-9
第一章 绪论  9-16
  1.1 概述  9-11
  1.2 文本的数学表示  11-12
  1.3 文本分类中特征选择的研究现状  12-13
  1.4 特征选择的评价方法  13-15
  1.5 本文的主要工作和结构安排  15-16
第二章 贝叶斯推断基础  16-37
  2.1 引言  16-17
  2.2 分布函数与共扼先验  17-18
  2.3 贝叶斯图模型  18-22
    2.3.1 有向无圈图模型的贝叶斯框架  19-21
    2.3.2 无向可分解图模型的贝叶斯框架  21-22
  2.4 生成模型和贝叶斯网分类器  22-33
    2.4.1 朴素贝叶斯分类器  24-27
    2.4.2 TAN分类器  27-31
    2.4.3 FAN分类器  31-33
  2.5 贝叶斯模型选择与模型平均  33-36
  2.6 讨论  36-37
第三章 文本分类中贝叶斯特征选择范例  37-61
  3.1 引言  37
  3.2 基于模型的特征选择目标函数  37-42
    3.2.1 分类问题中的生成模型  38
    3.2.2 特征选择指示器  38-39
    3.2.3 先验设定和超参数选取  39-41
    3.2.4 目标函数:后验密度  41-42
  3.3 特征变量随机搜索  42-43
  3.4 后验推断  43
  3.5 实例研究  43-59
    3.5.1 RCV 1-v2数据集  44-54
    3.5.2 市长公开电话数据集(MPHT)  54-59
  3.6 讨论  59-61
第四章 基于树结构的特征选择  61-87
  4.1 引言  61
  4.2 特征选择目标函数  61-68
    4.2.1 分类问题中的图模型  61-63
    4.2.2 特征选择指示器  63-65
    4.2.3 先验设定和超参数选取  65-67
    4.2.4 目标函数:后验密度  67-68
  4.3 特征搜索  68-69
  4.4 后验推断  69
  4.5 模拟和实例研究  69-86
    4.5.1 模拟数据  70-76
    4.5.2 DEXTER数据  76-80
    4.5.3 市长公开电话数据  80-86
  4.6 讨论  86-87
第五章 贝叶斯类别特征因子与特征平均  87-94
  5.1 引言  87
  5.2 模型细节  87-90
    5.2.1 朴素贝叶斯假设和模型分解  87-88
    5.2.2 特征选择指示器  88-89
    5.2.3 无信息先验  89-90
  5.3 贝叶斯类别特征因子  90-91
  5.4 贝叶斯特征平均  91-92
  5.5 实例研究  92-93
  5.6 讨论  93-94
结论  94-95
参考文献  95-99
后记  99-100
在学期间公开发表论文及著作情况  100

相似论文

  1. 支持XML数据查询的F&B索引结构的研究,TP311.13
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  4. 基于数据分布特征的文本分类研究,TP391.1
  5. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  6. 有序Probit模型的非参贝叶斯统计,O212.8
  7. 基于状态空间模型的赔款准备金的研究,F842.3
  8. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  9. 网络教育新闻文本分类系统的设计与实现,TP391.1
  10. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  11. 基于磁滞优化的车辆路径问题研究,O224
  12. 长文本辅助短文本的知识迁移聚类方法,TP391.1
  13. 数据挖掘在邮件反垃圾系统中的应用,TP393.098
  14. 基于概率图模型的态势估计,E917
  15. 跨语言文本分类的研究,TP391.1
  16. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  17. 基于统计与图模型的若干机器学习算法及其应用,TP181
  18. 基于语义分析的文本挖掘研究,TP391.1
  19. 人机交互环境下学术搜索功能学习的心智模型动态改变研究,G350
  20. 贝叶斯分类算法的研究与应用,TP18
  21. 网络舆情分析关键技术研究与实现,TP393.09

中图分类: > 数理科学和化学 > 数学 > 概率论与数理统计 > 数理统计 > 贝叶斯统计
© 2012 www.xueweilunwen.com