学位论文 > 优秀研究生学位论文题录展示

博客作者性别分类的研究

作 者: 王芬
导 师: 瞿有利
学 校: 北京交通大学
专 业: 计算机科学与技术
关键词: 博客作者性别分类 分类特征 特征选择方法 贝叶斯分类器 十折交叉验证
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 40次
引 用: 0次
阅 读: 论文下载
 

内容摘要


博客,是一种通常由个人管理、不定期张贴新的文章的网站。随着博客的快速发展,博客作为一个重要的信息源的价值也在增加。在自然语言处理方面和其他方面存在着大量的对博客的研究工作。有许多的商业公司利用博客中的信息来提供增值服务,比如博客搜索、博客主题追踪以及人们对产品和服务意见的情感分析。博客作者的性别分类是一个有许多商业应用价值的研究领域。例如,能够帮助用户找到什么主题和产品被男性和女性谈论的最多,以及什么产品和服务被男性和女性喜欢或是不喜欢,利用这些信息能够用于制作有针对性的广告与开发针对性的产品。所以,对博客作者性别分类的研究具有重要的意义。论文主要实现了博客作者的性别分类,并重点研究了如何提高博客作者性别分类的准确度,对于给定一篇博文,提取用于博客作者性别分类的特征类,利用带有课题研究得到的归并高分类能力特征的候选特征集的朴素贝叶斯分类器,能够对博文的作者进行判别归类,并且分类准确度在实验中可以达到74.49%,具体实现主要包括四部分:第一步是提取用于博客作者性别分类的特征类,课题采用的特征类为基本特征类与词性序列特征类;第二步是实现用于博客作者性别分类的特征选择方法,并利用特征选择方法选择出候选特征集,课题采用的特征选择方法是基于单个特征选择标准的特征选择方法与集成特征选择方法;第三步是结合带有候选特征集的朴素贝叶斯分类器与十折交叉验证法,从多组候选特征集中选择最优博客作者性别分类特征集;第四步是为了提高博客作者性别分类的准备度,设计并实现了归并高分类能力的候选特征集。论文采用带有候选特征集的朴素贝叶斯分类器与十折交叉验证法对博文作者性别进行分类并验证分类结果,最终得到的实验结果如下:采用加入词性序列特征的特征集,相比采用没有加入词性序列特征的特征集,分类准确度较高,为62.99%>60.59%,分类准确度提高了2.4%;采用集成特征选择方法提取的候选特征集,相比采用单个特征选择标准提取的候选特征集,分类准确度较高,分别为72.89%>67.57%,72.89%>68.19%,72.89%>70.49%,72.89%>67.26%与72.89%>66.97%,另外,采用集成特征选择方法,相比不采用任何特征选择方法直接进行性别分类,分类准确度较高,为72.89%>60.59%,分类准确度提高了12.3%;采用改进的归并高分类能力特征的候选特征集,相比采用没有改进的候选特征集,分类准确度较高,为74.49%>72.89%,分类准确度提高了1.6%。所以采用归并高分类能力特征的候选特征集,得到的分类准确度最高,为74.49%。

全文目录


致谢  5-6
摘要  6-7
ABSTRACT  7-12
1. 绪论  12-16
  1.1. 选题意义  12
  1.2. 研究背景及研究现状  12-13
  1.3. 论文主要工作  13-14
  1.4. 论文组织结构  14-16
2. 相关理论基础与实验数据集介绍  16-23
  2.1. 分类特征  16-19
    2.1.1. F-measure  16
    2.1.2. 风格特征  16-17
    2.1.3. 性别优先特征  17
    2.1.4. 词因素特征  17-19
  2.2. 特征选择标准  19-22
    2.2.1. 信息增益  20
    2.2.2. 互信息  20
    2.2.3. χ~2检测  20-21
    2.2.4. 交叉熵  21
    2.2.5. 证据权重  21-22
  2.3. 实验数据集介绍  22-23
3. 提取用于博客作者性别分类的特征类  23-33
  3.1. 提取基本特征类  23-27
    3.1.1. 算法的实现  23-25
    3.1.2. 实验结果  25-27
  3.2. 提取词性序列特征类  27-33
    3.2.1. 词性序列模式介绍  27-30
    3.2.2. 生成词性数据集  30
    3.2.3. 词性序列模式提取算法的类图  30
    3.2.4. 算法的实现  30-31
    3.2.5. 实验结果  31-33
4. 实现用于博客作者性别分类的特征选择方法  33-43
  4.1. 基于单个特征选择标准的特征选择方法  33-38
    4.1.1. 基于单个特征选择标准的特征选择方法介绍  33
    4.1.2. 生成特征选择标准计算公式数据项  33-34
    4.1.3. 算法的实现  34-38
    4.1.4. 实验结果  38
  4.2. 集成特征选择方法  38-43
    4.2.1. 集成特征选择方法介绍  38-39
    4.2.2. 算法的实现  39-40
    4.2.3. 实验结果  40-43
5. 选择最优博客作者性别分类特征集  43-71
  5.1. 相关理论基础  43-45
    5.1.1. 朴素贝叶斯分类器  43-45
    5.1.2. 十折交叉验证  45
  5.2. 朴素贝叶斯分类器算法的设计  45-48
    5.2.1. 生成训练数据集与测试数据集  45-46
    5.2.2. 算法的类图与算法的结构图  46-48
  5.3. 结合贝叶斯分类器与十折交叉验证法选择最优特征集  48-71
    5.3.1. 朴素贝叶斯分类器算法的实现  48-52
    5.3.2. 十折交叉验证算法的实现  52-53
    5.3.3. 最优特征集选择标准  53
    5.3.4. 实验结果  53-71
6. 归并高分类能力特征的候选特征集的设计与实现  71-78
  6.1. 归并高分类能力特征的候选特征集的设计  71-72
  6.2. 归并高分类能力特征的候选特征集的实现  72-74
  6.3. 实验结果  74-78
7. 总结与展望  78-80
参考文献  80-82
作者简历  82-84
学位论文数据集  84

相似论文

  1. 基于图像的路面破损识别,TP391.41
  2. 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
  3. 基于改进的非参数回归交通流量预测方法,F570
  4. 贝叶斯分类器在汽车发动机喷射故障诊断中的应用研究,U472
  5. 视频数据中人体动作的分类研究,TP391.41
  6. 基于MVC的人力资源管理系统的设计与实现,TP311.52
  7. 贝叶斯分类算法的研究与应用,TP18
  8. 嵌入式运动人体实时检测系统的设计与实现,TP391.41
  9. 面向工程监理的多Agent信息智能检索机制研究,TP391.3
  10. 半监督学习中协同训练与多视图方法的比较及改进,TP18
  11. 支持向量机在入侵检测系统中的研究和应用,TP393.08
  12. 基于N-Gram模型的藏文文本分类技术研究,TP391.1
  13. 基于增量改进贝叶斯领域问句分类研究,TP391.3
  14. 文本分类中特征降维技术的研究,TP391.1
  15. 基于数据挖掘技术的证券投资研究,F224
  16. 基于GPU的图像粒子拟合及分类算法研究及应用,TP391.41
  17. 基于Copula理论的两种分类算法研究,TP181
  18. 基于最优分割策略的高性能文本分类方法,TP18
  19. 基于灰度差投影与贝叶斯分类器的表情识别研究,TP391.41
  20. 贝叶斯网络中不确定性知识推理算法及其应用研究,TP183
  21. 信息识别与分类中的信号处理算法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com