学位论文 > 优秀研究生学位论文题录展示
互联网新闻热点挖掘系统的研究与实现
作 者: 彭卫华
导 师: 王晓龙
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 话题检测与跟踪 文本分类 类别特征域 凝聚式层次聚类 单遍聚类
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 149次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的出现及其近年来的飞速发展,人们开始进入信息爆炸的时代。通过互联网阅读新闻成为人们越来越重要的手段,面对如此浩瀚的互联网新闻,如何快速、准确的从这些海量数据中获取有用的信息,特别是最近一段时间发生的大事、热点,成为了人们迫切的需求和研究人员关注的焦点。本文研究并实现了互联网新闻的热点挖掘系统,先使用文本分类的方法对新闻报道分门别类,然后使用话题检测与跟踪的技术,自动形成一系列的专题。以标题、相关词群、事件趋势图等来表示某一个专题,用一种关注度计算方法对专题进行打分排序,把最新最热的专题呈现给用户。这样,用户就可以很方便地根据自己的兴趣选择某个领域的某个专题去浏览。本文的研究内容主要包括以下几个方面:(1)分析了文本分类使用一般特征选择方法所存在的问题,在此基础上提出了一种基于类别特征域的特征选择新方法来改进文本分类的效果。(2)对传统的话题检测与跟踪算法进行改进,提出了一种基于双时间窗、凝聚式层次聚类与单遍聚类相结合的二次聚类的话题检测与跟踪算法,引入了时间衰减因子、增量倒文档频率和基于时间距离的相似度计算公式,使用更新事件模板的方法有效地处理话题漂移问题。(3)结合本文提出的算法,设计并实现了互联网新闻热点挖掘系统,以发现最近一段时间的热点新闻和重大事件。在文本分类评测中把本文的基于类别特征域的方法与互信息、信息增益和开方检验做了比较,证明了基于类别特征域方法的优越性。在话题检测与跟踪评测中,使用了三个数据集,把本文的基于双时间窗和二次聚类的方法与直接使用K-means、单遍聚类和凝聚式层次聚类作了对比实验。实验结果表明,本文提出的方法优于其它方法,达到了预期的效果。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-14 1.1 课题背景 9 1.2 课题目的及意义 9-10 1.3 国内外研究现状 10-12 1.4 本文主要研究内容 12-14 第2章 相关技术介绍 14-27 2.1 相似度计算方法 14-15 2.2 文本分类 15-21 2.2.1 文本分类概述 15-16 2.2.2 特征选择方法 16-18 2.2.3 常用文本分类算法 18-21 2.3 文本聚类 21-26 2.3.1 文本分聚概述 21 2.3.2 常用文本聚类算法 21-26 2.4 本章小结 26-27 第3章 互联网新闻热点挖掘系统的核心算法 27-40 3.1 基于类别特征域的文本分类算法 27-31 3.1.1 类别特征域定义 27 3.1.2 构建类别特征域 27-28 3.1.3 利用类别特征域进行特征合并 28-29 3.1.4 基于类别特征域的KNN文本分类算法 29-31 3.2 基于双时间窗和二次聚类的话题检测与跟踪算法 31-38 3.2.1 新事件检测的基本模型 32-33 3.2.2 基于双时间窗和二次聚类的核心算法 33-37 3.2.3 话题跟踪的话题漂移 37-38 3.3 本章小结 38-40 第4章 互联网新闻热点挖掘系统的实现 40-48 4.1 系统框架 40-41 4.2 各功能模块介绍 41-45 4.2.1 新闻采集模块 41-43 4.2.2 分类模块 43 4.2.3 聚类模块 43-44 4.2.4 热点展示模块 44-45 4.3 系统演示 45-47 4.4 本章小结 47-48 第5章 实验评测与结果分析 48-56 5.1 实验环境 48 5.2 实验数据 48-49 5.3 实验结果分析 49-55 5.3.1 文本分类结果分析 49-52 5.3.2 TDT结果分析 52-55 5.4 本章小结 55-56 结论 56-58 参考文献 58-63 致谢 63
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于语义分析的文本挖掘研究,TP391.1
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于关联技术的中文文本分类研究,TP391.1
- 软件缺陷自动分派研究,TP311.52
- 基于决策树分类算法的Web文本分类研究,TP391.1
- 结合本体HowNet的中文文本分类研究,TP391.1
- 基于集成学习的垃圾短信多级分类技术研究,TN929.53
- 基于NMF垃圾邮件过滤系统研究,TP393.098
- 基于内容的Web新闻文本自动分类问题研究,TP391.1
- 中文文本分类方法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|