学位论文 > 优秀研究生学位论文题录展示

基于元信息的文本分类与优化技术研究与实现

作　者: 蒋子海
导　师: 吴泉源
学　校: 国防科学技术大学
专　业: 计算机科学与技术
关键词: 舆情监测文本分类元信息 LDA(Latent Dirichlet Allocation) 信息增益大规模文本分布式文本分类
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 137次
引　用: 0次
阅　读: 论文下载

内容摘要

信息技术的日新月异使得互联网快速发展。由于互联网交流快捷,信息传播迅速,越来越多的民众倾向于在互联网上表达真实想法和观点,这就使得网络媒体对社会舆论的导向作用日益强大。因此,及时掌握舆情动态、积极引导社会舆论是亟待解决的问题。为了及时掌握舆情的态势,必然要对包含不同信息的文本进行准确高效的分析整理。文本自动分类技术正是解决该类问题的关键技术之一。本文对文本分类的研究现状进行了分析,总结了当前文本分类面临的问题。针对目前互联网数据形式的多样化问题,本文提出了基于元信息的文本分类方法,提高了Web文本的分类性能;针对当前大规模数据处理难题,本文还对该算法进行了优化,包括采用信息增益进行词汇预过滤,构建分布式文本分类算法。本文提出的面向网络舆情监测的大规模文本分类研究方法,为舆情监测研究提供了一系列方法和理论。本文研究内容如下:(1)对本文产生背景进行介绍,阐述了文本分类的理论知识和相关技术,对当前文本分类方法遇到的问题及可能的解决办法进行了分析。(2)针对互联网数据呈现形式的多样化问题,本文提出基于元信息的文本分类方法,重点对当前Web文本(包括新闻网页,博客,论坛,即时通信,微博)进行分析。该方法分为两步,第一步采用元信息-类别函数的方法对文本进行类别判断。若第一步无法进行,则第二步采用基于LDA的文本分类算法,将元信息融合到LDA主题建模中,并修正相应的主题-词汇权重。权重的计算方法主要是基于词汇的元信息重要度。(3)针对互联网数据的大规模化问题,本文对基于元信息的文本分类算法进行了优化。在该方法的第二步,即在基于LDA的文本分类中,本文采用信息增益对词汇进行预过滤,减少了词汇的数量,加快了文本分类建模和实际分类的速度。本文还对基于元信息文本分类算法进行了扩充,提出了基于消息通信中间件的分布式文本分类算法。(4)本文在Apache提供的UIMA AS平台上,将以上文本分类的研究成果应用到银河博思舆情监测项目研发中,成功地开发了大规模文本分类系统(MTCS),为整个网络舆情分析系统的后续开发作积累和准备。

全文目录

摘要  9-10
ABSTRACT  10-11
第一章绪论  11-16
  1.1 研究背景及意义  11-12
  1.2 国内外相关研究的现状  12-14
    1.2.1 文本分类研究现状  12-13
    1.2.2 文本分类面临问题  13-14
  1.3 本文研究的主要内容  14
  1.4 本文的组织结构  14-16
第二章文本分类相关研究  16-30
  2.1 训练语料的构建  17-18
  2.2 爬虫技术  18
  2.3 数据预处理  18-21
    2.3.1 文本解析  18-19
    2.3.2 分词  19-20
    2.3.3 停用词去除  20-21
  2.4 文本表示模型  21-22
  2.5 特征降维  22-26
    2.5.1 特征选择  22-24
    2.5.2 特征提取  24-26
  2.6 分类方法  26-28
  2.7 分类效果评估体系  28-29
  2.8 本章小结  29-30
第三章基于元信息的文本分类方法  30-41
  3.1 研究背景  30
  3.2 Web 文本元信息  30-35
    3.2.1 新闻网页  30-31
    3.2.2 博客  31-33
    3.2.3 论坛，杂谈（BBS）  33-34
    3.2.4 即时通信  34
    3.2.5 微博  34-35
  3.3 基于LDA 的文本分类算法  35-38
    3.3.1 主题建模背景  36
    3.3.2 LDA 主题建模  36-37
    3.3.3 中心向量法  37
    3.3.4 算法流程  37-38
  3.4 基于元信息的文本分类算法  38-39
  3.5 实验分析  39-41
第四章基于元信息的文本分类性能优化算法  41-48
  4.1 问题背景  41
  4.2 基于信息增益和 LDA 的文本分类  41-43
    4.2.1 信息增益预过滤词汇的必要性  42
    4.2.2 算法流程  42-43
  4.3 分布式文本分类  43-45
  4.4 实验分析  45-48
    4.4.1 基于信息增益和 LDA 文本分类实验  45-47
      4.4.1.1 分类F1 值与α 关系  46
      4.4.1.2 分类器运行速度与α 关系  46-47
    4.4.2 分布式文本分类  47-48
第五章面向网络舆情监测的大规模文本分类系统设计  48-61
  5.1 YHPODS 系统简介  48-49
  5.2 UIMA AS 架构简介  49-53
    5.2.1 UIMA 简介  49-51
      5.2.1.1 UIMA 基本概念  50-51
      5.2.1.2 UIMA 数据处理流程  51
    5.2.2 UIMA AS 简介  51-53
      5.2.2.1 UIMA AS 相关概念  52-53
      5.2.2.2 UIMA AS 并行机制  53
  5.3 面向舆情监测的大规模文本分类系统  53-57
    5.3.1 MTCS 整体设计  53-55
    5.3.2 大规模文件的读取  55-56
    5.3.3 文件解析  56
    5.3.4 文本分类  56-57
  5.4 系统演示  57-61
第六章结束语  61-63
致谢  63-64
参考文献  64-68
作者在学期间取得的学术成果  68-69
作者在学期间参加的科研工作  69

相似论文

基于仿生模式识别的文本分类技术研究,TP391.1
互联网上旅游评论的情感分析及其有用性研究,TP391.1
基于数据分布特征的文本分类研究,TP391.1
面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
基于改进遗传算法的神经网络输入约简,TP18
基于树型条件随场的特定域事件提取方法研究,TP391.1
水利工程舆情分析模型及指标体系设计,F426.91
网络教育新闻文本分类系统的设计与实现,TP391.1
一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
跨语言文本分类的研究,TP391.1
基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
基于语义分析的文本挖掘研究,TP391.1
基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用,TP393.098
网络舆情分析关键技术研究与实现,TP393.09
基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
基于关联技术的中文文本分类研究,TP391.1
软件缺陷自动分派研究,TP311.52
基于决策树分类算法的Web文本分类研究,TP391.1
结合本体HowNet的中文文本分类研究,TP391.1
基于集成学习的垃圾短信多级分类技术研究,TN929.53
基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究,R730.4