学位论文 > 优秀研究生学位论文题录展示

基于改进TF-IDF的文本信息热点话题发现

作　者: 薛征
导　师: 廖闻剑
学　校: 武汉邮电科学研究院
专　业: 通信与信息系统
关键词: 关键词提取热点话题 TF-IDF 位置权重命名实体权重
分类号: TP391.1
类　型: 硕士论文
年　份: 2009年
下　载: 214次
引　用: 1次
阅　读: 论文下载

内容摘要

网络中文信息数量庞大,来源丰富,而且会不断的动态翻新,这使得人们很难及时从海量的网络信息中找到自己感兴趣的信息。本文将改进后的TF-IDF函数用于关键词提取,并对网络新闻进行聚类,使用户能够快速发现海量电子文本中的热点信息。本文通过综合考虑文档类别因子、位置权重因子、命名实体权重因子,对传统TF-IDF函数进行了改进,并设计了将改进后TF-IDF函数用于文本关键词提取的实现流程。相关的实验评估表明,引入类别、位置权重和命名实体后的TF-IDF函数与传统TF-IDF函数相比,关键词提取的准确率提高了约13.3%,召回率提高了约13.1%。利用上述改进对背景语料进行关键词提取,然后通过文本聚类技术实测了测试语料的热点话题发现,结果表明常规TF-IDF和改进TF-IDF函数进行话题发现的效果差异显著。实验结果表明,使用改进后TF-IDF函数进行特征提取时,话题发现的平均准确率及平均召回率均比使用单纯TF-IDF函数时提高了约10%左右,可读性大大提高。论文工作在热点话题追踪方面将会有广泛的应用。

全文目录

摘要  3-4
Abstract  4-8
第1章绪论  8-15
  1.1 热点话题发现的研究背景及意义  8-9
  1.2 国内外研究现状  9-13
    1.2.1 话题识别与跟踪  9-11
    1.2.2 特征词提取  11
    1.2.3 文本聚类  11-13
  1.3 存在的问题  13
  1.4 本论文主要内容  13-14
  1.5 本章小结  14-15
第2章理论基础  15-27
  2.1 中文自动分词  15-19
    2.1.1 中文分词的难点  15-16
    2.1.2 自动分词的原则  16-17
    2.1.3 主要的分词方法  17-19
  2.2 关键词提取  19-20
  2.3 命名实体识别技术  20-22
    2.3.1 面临的主要困难  20-22
    2.3.2 主要的实现方法  22
  2.4 中文文本聚类技术  22-26
    2.4.1 K-means聚类算法  24
    2.4.2 基于高密度连接区域的DBSCAN聚类算法  24-25
    2.4.3 CURE算法  25-26
  2.5 本章小结  26-27
第3章对TF-IDF函数的改进  27-37
  3.1 传统的TF-IDF函数  27-28
  3.2 引入多种附加权重后的改进TF-IDF函数  28-30
  3.3 网页特征词提取的流程  30-32
    3.3.1 语料样本的预处理  30
    3.3.2 实现流程  30-32
  3.4 实验评估  32-36
    3.4.1 背景语料的选择  32
    3.4.2 使用的评估指标  32-33
    3.4.3 确定位置权重  33-35
    3.4.4 实验结果  35
    3.4.5 结果分析  35-36
  3.5 本章小结  36-37
第4章热点话题发现的实现方案  37-46
  4.1 语料样本的采集、解析和预处理  37-40
    4.1.1 Web信息采集  37-38
    4.1.2 信息抽取  38-40
  4.2 话题发现实现算法流程  40-43
  4.3 验证热点话题发现效果  43-45
    4.3.1 实验数据来源  43
    4.3.2 评测准则  43-44
    4.3.3 实验结果分析  44-45
  4.4 本章小结  45-46
第5章总结与展望  46-48
  5.1 本论文的工作  46
  5.2 创新点  46-47
  5.3 潜在的问题和希望  47-48
参考文献  48-51
致谢  51-52
附录1 攻读硕士学位期间发表的论文  52-53
附录2 相关索引  53
  A 表索引  53
  B 图索引  53
  C 公式索引  53

基于改进TF-IDF的文本信息热点话题发现

内容摘要

全文目录

相似论文