学位论文 > 优秀研究生学位论文题录展示
基于分类模型监测电子商务违禁信息的研究与实现
作 者: 陈孝峰
导 师: 陈纯;王灿
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 电子商务 违禁关键词 违禁内容监测 信息检索 改进向量空间模型 文本分类
分类号: TP393.09
类 型: 硕士论文
年 份: 2012年
下 载: 20次
引 用: 0次
阅 读: 论文下载
内容摘要
当今,随着互联网的飞速发展和普及,电子商务已经成为人们生产和生活中的重要媒介。诸如阿里巴巴、淘宝等大型电子商务平台每天都有数十万的交易发生,其中难免会产生许多不良和违禁信息。如果不能及时有效的处理,将严重危害电子商务的发展。因此,对于各种良莠不齐的信息,必须采取有效的审核过滤机制。但是,面对急剧膨胀的信息量,仅靠人工审核将变的越来越困难,迫切需要利用计算机自动信息过滤手段来提高违禁信息监测的效率。本文针对电子商务违禁信息监测机制进行深入分析和研究,旨在利用文本分词、关键词提取和文本分类等相关信息检索技术来帮助实现违禁信息的自动识别,从而降低人工进行违禁信息审核的负担,提高电子商务信息发布的效率。本文认为,违禁信息的监测主要由违禁关键词监测和违禁内容监测两部分组成。其中,如何提取违禁关键词和识别违禁内容,将成为解决违禁信息监测的关键所在。因此,本文引入违禁类别关键词选择技术和文本分类模型作为违禁信息监测的基础。对于违禁关键词,本文根据特征选取和类别区分度,实现违禁词选取;对于违禁内容,本文采用基于文档结构特征的改进向量空间模型表示文档信息,以求达到更加理想的分类效果,并在支持向量机分类摸型的基础上实现了电子商务违禁内容的监测,然后以最大熵算法作为效果对比。本文采集了大量真实的电子商务信息进行了违禁信息监测实验。结果表明,本文提出的以违禁关键词和违禁内容为基础的电子商务信息监测,对违禁信息的识别具有良好的效果,从而表明通过机器学习进行违禁信息自动监测具有可行性。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-16 1.1 引言 10 1.2 互联网与电子商务 10-13 1.2.1 互联网及其发展 11-12 1.2.2 电子商务及其发展 12-13 1.3 研究目的和意义 13-14 1.4 本文工作和结构 14-15 1.4.1 本文工作 14 1.4.2 本文结构 14-15 1.5 本章小结 15-16 第2章 相关理论和工作 16-29 2.1 信息检索与Web数据挖掘 16-23 2.1.1 信息检索技术 16-18 2.1.2 信息检索模型 18-21 2.1.3 Web数据挖掘技术 21-23 2.2 文本处理技术 23-28 2.2.1 中文分词技术 23-24 2.2.2 文本分类技术 24-28 2.3 本章小结 28-29 第3章 违禁关键字选择与匹配 29-37 3.1 违禁关键词监测总体设计 30-31 3.2 违禁关键词选取 31-35 3.2.1 关键特征选择 32-33 3.2.2 强类别区别词选择 33-35 3.3 违禁关键词匹配 35-36 3.4 本章小结 36-37 第4章 基于分类的违禁内容监测 37-48 4.1 违禁内容监测总体设计 37-38 4.2 改进向量空间模型 38-41 4.2.1 传统向量空间模型 38-40 4.2.2 结合网页特征的向量空间模型 40-41 4.3 违禁内容分类建模 41-47 4.3.1 求解最优分类超平面 41-46 4.3.2 违禁类别判断 46-47 4.4 本章小结 47-48 第5章 系统设计与效果评估 48-63 5.1 系统总体设计框架 48-49 5.2 实验数据 49-54 5.2.1 数据源获取 49-50 5.2.2 数据预处理 50-52 5.2.3 分词停用词处理 52-53 5.2.4 输入数据格式 53-54 5.3 系统实现 54-56 5.4 实验结果 56-62 5.4.1 评价指标 56 5.4.2 违禁关键词监测结果及讨论 56-59 5.4.3 违禁内容监测结果及讨论 59-62 5.5 本章小结 62-63 第6章 总结与展望 63-65 6.1 工作总结 63-64 6.2 未来展望 64-65 参考文献 65-69 攻读硕士学位期间主要的研究成果 69-70 致谢 70
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 服装网络营销顾客忠诚度的实证研究,F274
- 中等职业学校语文课业设计的思考与实践,G633.3
- 论《联合国国际货物销售合同公约》在适用范围上的新发展,D997.1
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于数据分布特征的文本分类研究,TP391.1
- B2C市场中价格和价格离散的实证研究,F724.6
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 山东邮政电子商务发展战略研究,F616
- 几个电子现金支付方案的分析与改进,TP393.08
- 关于设立上海电子商务银行的可行性研究,F832.2
- 电子贸易全球化背景下的税收征管研究,F812.42
- 电子商务系统开发运用法律问题探讨,D923.6
- 在线相册冲印系统的设计与实现,TP311.52
- 龙城电子商城购物系统的设计与实现,TP311.52
- 网络音像交易平台设计与实现,TP393.09
- 移动代理电子商务环境下的安全迁移模型研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|