学位论文 > 优秀研究生学位论文题录展示
基于文本挖掘的垃圾短信过滤方法
作 者: 钟延辉
导 师: 傅彦
学 校: 电子科技大学
专 业: 计算机软件与理论
关键词: 垃圾短信 文本挖掘 协同神经网络 抽样过滤 MapReduce模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 443次
引 用: 9次
阅 读: 论文下载
内容摘要
手机短信作为一种收发便捷、移动性好、价格低廉的通讯方式,逐渐影响着人们的生活。但随着短信的日益普及,垃圾短信问题也变得日益严峻,其严重的泛滥不仅仅严重影响人们的正常生活,而且严重影响社会稳定和公共安全。垃圾短信的过滤成为了当前人们生活急需解决的一个重要任务,因此垃圾短信智能过滤技术的研究具有重要的意义。目前垃圾短信过滤技术包括黑白名单技术、规则过滤以及关键词匹配等。然而现有的技术需要对短信进行逐条分析与判断,存在大量运算,会造成短信服务中心网络堵塞,使得短信发送得不到及时的处理。针对目前过滤技术的缺点,本文提出了一种基于抽样的短信流过滤方法,该方法提出用部分短信代表整个短信流的思想;同时给每个用户设定一个可信值,并根据用户可信值的不同,对发送到短信服务中心的短信进行不同强度的检测。检测到的短信根据短信的文字信息进行分类,而不必对每一条短信进行分析,提高了垃圾短信的处理效率。该方法整合了现有的垃圾短信过滤技术(长度过滤,黑白名单、关键词及内容过滤等技术)。在内容过滤技术中,本文采用了协同神经网络的分类方法,然而经典的Haken模型对海量数据识别是极为困难的,本文根据协同神经网络在注意参数相等时能快速识别的原理,改进算法,使之能适应海量垃圾短信分类。同时将现有的垃圾短信过滤技术和改进的协同神经网络应用于MapReduce模型之中。实验表明基于抽样的垃圾短信过滤方法比单一的内容过滤方法准确率和处理时间上有很大的提高,以及这些技术应用MapReduce模型中的可行性和有效性。本文的主要工作包括:(1)概述了现有的垃圾短信过滤技术以及分析了这些技术存在的问题,同时对垃圾短信的定义、危害进行了描述。(2)介绍了协同神经网络模型原理,并在现有的模型基础上进行改进,建立一个多输入单输出的协同神经网络结构,使之能适合海量的短信识别。(3)提出了抽样短信流过滤方法,构建了一个基于抽样的短信流过滤系统。(4)介绍了MapReduce模型,并将现有的垃圾短信过滤技术和改进的协同神经网络应用于MapReduce模型之中。
|
全文目录
相似论文
- 基于内容的中文垃圾短信分类技术的研究,TP391.1
- 一种基于数据挖掘的垃圾短信识别方法的研究,TP311.13
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
- 基于集成学习的垃圾短信多级分类技术研究,TN929.53
- 手机号码实名制下北京移动的经营策略分析,F626
- 基于量子协同神经网络的图像识别,TP391.41
- 浙江电信垃圾短信监控系统的设计与实现,TP277
- 基于Android的垃圾短信处理系统的研究与设计,TP391.1
- 垃圾短信规制的法律思考,D922.29
- 基于客户端的手机短信过滤系统的设计与实现,TP311.52
- 论垃圾短信的法律规制,D922.14
- 垃圾短信的识别与处理,TN929.532
- 短信监控系统的设计与实现,TN929.5
- 论手机垃圾短信的民法治理,D923
- Windows Mobile平台信息管理系统的设计与实现,TP311.52
- 云计算在基于贝叶斯分类的垃圾短信过滤中的研究与应用,TN929.53
- 移动绿色通信平台系统架构的研究与实例,TN929.5
- 基于Winnow算法和CAPTCHA的垃圾短信过滤研究,TN929.5
- 垃圾短信的屏蔽机制与应用研究,TN929.5
- 基于支持向量机的垃圾短信过滤方法研究,TP18
- Symbian平台移动应用通信协议及模块的设计与实现,TP393.01
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|