学位论文 > 优秀研究生学位论文题录展示

基于改进TF-IDF的文本信息热点话题发现

作 者: 薛征
导 师: 廖闻剑
学 校: 武汉邮电科学研究院
专 业: 通信与信息系统
关键词: 关键词提取 热点话题 TF-IDF 位置权重 命名实体权重
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 214次
引 用: 1次
阅 读: 论文下载
 

内容摘要


网络中文信息数量庞大,来源丰富,而且会不断的动态翻新,这使得人们很难及时从海量的网络信息中找到自己感兴趣的信息。本文将改进后的TF-IDF函数用于关键词提取,并对网络新闻进行聚类,使用户能够快速发现海量电子文本中的热点信息。本文通过综合考虑文档类别因子、位置权重因子、命名实体权重因子,对传统TF-IDF函数进行了改进,并设计了将改进后TF-IDF函数用于文本关键词提取的实现流程。相关的实验评估表明,引入类别、位置权重和命名实体后的TF-IDF函数与传统TF-IDF函数相比,关键词提取的准确率提高了约13.3%,召回率提高了约13.1%。利用上述改进对背景语料进行关键词提取,然后通过文本聚类技术实测了测试语料的热点话题发现,结果表明常规TF-IDF和改进TF-IDF函数进行话题发现的效果差异显著。实验结果表明,使用改进后TF-IDF函数进行特征提取时,话题发现的平均准确率及平均召回率均比使用单纯TF-IDF函数时提高了约10%左右,可读性大大提高。论文工作在热点话题追踪方面将会有广泛的应用。

全文目录


摘要  3-4
Abstract  4-8
第1章 绪论  8-15
  1.1 热点话题发现的研究背景及意义  8-9
  1.2 国内外研究现状  9-13
    1.2.1 话题识别与跟踪  9-11
    1.2.2 特征词提取  11
    1.2.3 文本聚类  11-13
  1.3 存在的问题  13
  1.4 本论文主要内容  13-14
  1.5 本章小结  14-15
第2章 理论基础  15-27
  2.1 中文自动分词  15-19
    2.1.1 中文分词的难点  15-16
    2.1.2 自动分词的原则  16-17
    2.1.3 主要的分词方法  17-19
  2.2 关键词提取  19-20
  2.3 命名实体识别技术  20-22
    2.3.1 面临的主要困难  20-22
    2.3.2 主要的实现方法  22
  2.4 中文文本聚类技术  22-26
    2.4.1 K-means聚类算法  24
    2.4.2 基于高密度连接区域的DBSCAN聚类算法  24-25
    2.4.3 CURE算法  25-26
  2.5 本章小结  26-27
第3章 对TF-IDF函数的改进  27-37
  3.1 传统的TF-IDF函数  27-28
  3.2 引入多种附加权重后的改进TF-IDF函数  28-30
  3.3 网页特征词提取的流程  30-32
    3.3.1 语料样本的预处理  30
    3.3.2 实现流程  30-32
  3.4 实验评估  32-36
    3.4.1 背景语料的选择  32
    3.4.2 使用的评估指标  32-33
    3.4.3 确定位置权重  33-35
    3.4.4 实验结果  35
    3.4.5 结果分析  35-36
  3.5 本章小结  36-37
第4章 热点话题发现的实现方案  37-46
  4.1 语料样本的采集、解析和预处理  37-40
    4.1.1 Web信息采集  37-38
    4.1.2 信息抽取  38-40
  4.2 话题发现实现算法流程  40-43
  4.3 验证热点话题发现效果  43-45
    4.3.1 实验数据来源  43
    4.3.2 评测准则  43-44
    4.3.3 实验结果分析  44-45
  4.4 本章小结  45-46
第5章 总结与展望  46-48
  5.1 本论文的工作  46
  5.2 创新点  46-47
  5.3 潜在的问题和希望  47-48
参考文献  48-51
致谢  51-52
附录1 攻读硕士学位期间发表的论文  52-53
附录2 相关索引  53
  A 表索引  53
  B 图索引  53
  C 公式索引  53

相似论文

  1. BBS舆情智能分析系统研究与实现,TP393.094
  2. 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
  3. 基于基因表达式编程的中文文本关键词提取算法研究,TP391.1
  4. 高校校园网论坛热点话题发现系统的研究与实现,TP393.18
  5. 基于PageRank值的文本相似度改进模型,TP391.1
  6. 网络舆情热点发现与分析研究,TP393.09
  7. 基于VSM模型和特征选择算法的中文文本自动分类研究,TP391.1
  8. 网络舆情分析关键技术的研究与实现,TP393.09
  9. 基于文本分类算法的短信用户兴趣分层算法研究,TP391.1
  10. 基于DNA序列的功能位点识别,Q523
  11. 基于内容的短信息审计系统研究与实现,TP311.52
  12. 问答系统中文问句分析关键问题研究,TP391.1
  13. 云计算及若干数据挖掘算法的MapReduce化研究,TP311.13
  14. 网络舆情热点发现相关技术研究,TP393.09
  15. 微博客热点话题发现策略研究,TP393.092
  16. 基于聚类分析的网络论坛热点话题检测,TP393.094
  17. 基于语义的Web主题提取的研究,TP391.1
  18. BBS热点话题发现与监控系统,TP393.094
  19. 基于Web信息抽取的舆论传播分析,TP393.09
  20. 基于遗传算法的转录因子结合位点识别算法的研究,Q75

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com