学位论文 > 优秀研究生学位论文题录展示
基于改进TF-IDF的文本信息热点话题发现
作 者: 薛征
导 师: 廖闻剑
学 校: 武汉邮电科学研究院
专 业: 通信与信息系统
关键词: 关键词提取 热点话题 TF-IDF 位置权重 命名实体权重
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 214次
引 用: 1次
阅 读: 论文下载
内容摘要
网络中文信息数量庞大,来源丰富,而且会不断的动态翻新,这使得人们很难及时从海量的网络信息中找到自己感兴趣的信息。本文将改进后的TF-IDF函数用于关键词提取,并对网络新闻进行聚类,使用户能够快速发现海量电子文本中的热点信息。本文通过综合考虑文档类别因子、位置权重因子、命名实体权重因子,对传统TF-IDF函数进行了改进,并设计了将改进后TF-IDF函数用于文本关键词提取的实现流程。相关的实验评估表明,引入类别、位置权重和命名实体后的TF-IDF函数与传统TF-IDF函数相比,关键词提取的准确率提高了约13.3%,召回率提高了约13.1%。利用上述改进对背景语料进行关键词提取,然后通过文本聚类技术实测了测试语料的热点话题发现,结果表明常规TF-IDF和改进TF-IDF函数进行话题发现的效果差异显著。实验结果表明,使用改进后TF-IDF函数进行特征提取时,话题发现的平均准确率及平均召回率均比使用单纯TF-IDF函数时提高了约10%左右,可读性大大提高。论文工作在热点话题追踪方面将会有广泛的应用。
|
全文目录
摘要 3-4 Abstract 4-8 第1章 绪论 8-15 1.1 热点话题发现的研究背景及意义 8-9 1.2 国内外研究现状 9-13 1.2.1 话题识别与跟踪 9-11 1.2.2 特征词提取 11 1.2.3 文本聚类 11-13 1.3 存在的问题 13 1.4 本论文主要内容 13-14 1.5 本章小结 14-15 第2章 理论基础 15-27 2.1 中文自动分词 15-19 2.1.1 中文分词的难点 15-16 2.1.2 自动分词的原则 16-17 2.1.3 主要的分词方法 17-19 2.2 关键词提取 19-20 2.3 命名实体识别技术 20-22 2.3.1 面临的主要困难 20-22 2.3.2 主要的实现方法 22 2.4 中文文本聚类技术 22-26 2.4.1 K-means聚类算法 24 2.4.2 基于高密度连接区域的DBSCAN聚类算法 24-25 2.4.3 CURE算法 25-26 2.5 本章小结 26-27 第3章 对TF-IDF函数的改进 27-37 3.1 传统的TF-IDF函数 27-28 3.2 引入多种附加权重后的改进TF-IDF函数 28-30 3.3 网页特征词提取的流程 30-32 3.3.1 语料样本的预处理 30 3.3.2 实现流程 30-32 3.4 实验评估 32-36 3.4.1 背景语料的选择 32 3.4.2 使用的评估指标 32-33 3.4.3 确定位置权重 33-35 3.4.4 实验结果 35 3.4.5 结果分析 35-36 3.5 本章小结 36-37 第4章 热点话题发现的实现方案 37-46 4.1 语料样本的采集、解析和预处理 37-40 4.1.1 Web信息采集 37-38 4.1.2 信息抽取 38-40 4.2 话题发现实现算法流程 40-43 4.3 验证热点话题发现效果 43-45 4.3.1 实验数据来源 43 4.3.2 评测准则 43-44 4.3.3 实验结果分析 44-45 4.4 本章小结 45-46 第5章 总结与展望 46-48 5.1 本论文的工作 46 5.2 创新点 46-47 5.3 潜在的问题和希望 47-48 参考文献 48-51 致谢 51-52 附录1 攻读硕士学位期间发表的论文 52-53 附录2 相关索引 53 A 表索引 53 B 图索引 53 C 公式索引 53
|
相似论文
- BBS舆情智能分析系统研究与实现,TP393.094
- 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
- 基于基因表达式编程的中文文本关键词提取算法研究,TP391.1
- 高校校园网论坛热点话题发现系统的研究与实现,TP393.18
- 基于PageRank值的文本相似度改进模型,TP391.1
- 网络舆情热点发现与分析研究,TP393.09
- 基于VSM模型和特征选择算法的中文文本自动分类研究,TP391.1
- 网络舆情分析关键技术的研究与实现,TP393.09
- 基于文本分类算法的短信用户兴趣分层算法研究,TP391.1
- 基于DNA序列的功能位点识别,Q523
- 基于内容的短信息审计系统研究与实现,TP311.52
- 问答系统中文问句分析关键问题研究,TP391.1
- 云计算及若干数据挖掘算法的MapReduce化研究,TP311.13
- 网络舆情热点发现相关技术研究,TP393.09
- 微博客热点话题发现策略研究,TP393.092
- 基于聚类分析的网络论坛热点话题检测,TP393.094
- 基于语义的Web主题提取的研究,TP391.1
- BBS热点话题发现与监控系统,TP393.094
- 基于Web信息抽取的舆论传播分析,TP393.09
- 基于遗传算法的转录因子结合位点识别算法的研究,Q75
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|