学位论文 > 优秀研究生学位论文题录展示
基于文本的网络内容审计系统的设计与实现
作 者: 侯风巍
导 师: 杨永田
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 网络内容审计 文本态度倾向性 组合特征提取 信息反馈 短语搭配 语法语义
分类号: TP311.52
类 型: 硕士论文
年 份: 2008年
下 载: 87次
引 用: 1次
阅 读: 论文下载
内容摘要
当前网络色情信息、反动言论、暴力等有害信息泛滥,而主题分类等方法对过滤这些信息显得力不从心。为更好的过滤网络中有害信息,将信息分类为无关信息、积极信息和消极信息三个类别并提出进行文本态度倾向性过滤的必要性。在分析当前文本态度倾向性分析技术的基础上,本文所作的工作如下:1、针对分类中高维性和稀疏性两大难题,在总结了当前特征降维方法的基础上,提出了组合特征提取算法。该算法结合CHI和IG的特性,既有利于高频特征,又有利于只出现在少数类中且能强烈表现文本语义信息的中低频特征。2、为有效过滤无关信息并使过滤模型逐步逼近用户的真实需求,提出了用户信息反馈和阈值过滤策略,设计了基于SNoW算法的主题分类模型,具有排除无关信息和将有关信息分类到特殊领域类的双重功能。3、为更准确的体现文本语义,在更细粒度层面上分析作者的立场态度,本文提出了基于语法语义规则和统计相融合的文本态度倾向性识别算法。该算法将SVM的特征进行广义延伸,将倾向性词语和红黑特征库所组成的短语搭配、BOW等作为SVM分类器的特征,体现了文本的语义约束。4、设计并实现了基于文本态度倾向性分析的网络内容审计系统。实验证明,该系统实现了对文本高准确率、高效的立场倾向性识别。总之,本论文比较全面的论述了基于文本态度倾向性分析的网络内容审计模型的设计和实际系统的设计与实现方法。重点阐述了主题分类中的组合特征提取算法、基于用户信息反馈和阈值策略的自适应算法、基于语法语义规则和统计相融合的文本态度倾向性识别的分析方法,对以后的文本倾向性研究有着一定的意义。
|
全文目录
摘要 5-6 ABSTRACT 6-9 第1章 绪论 9-16 1.1 课题研究背景 9-11 1.1.1 有害信息污染 9-10 1.1.2 选题的目的和意义 10-11 1.2 国内外研究现状 11-13 1.3 论文的主要研究内容 13-15 1.4 论文的组织结构 15-16 第2章 基于信息反馈的文本主题分类技术 16-35 2.1 引言 16 2.2 文本主题分类分析 16-19 2.3 特征降维 19-28 2.3.1 特征降维算法分析 19-24 2.3.2 改进的组合特征提取算法 24-28 2.4 信息反馈处理与阈值过滤 28-32 2.5 实验结果与分析 32-34 2.5.1 实验设计 32 2.5.2 试验结果 32-34 2.5.3 结果分析 34 2.6 本章小结 34-35 第3章 基于语义的文本倾向性分析技术 35-54 3.1 引言 35-38 3.1.1 基于统计分布的判断思想 35-36 3.1.2 基于语法语义规则的思想 36-38 3.2 语义规则与统计相融合的倾向性分析 38-51 3.2.1 语法语义规则模型的设计 38-45 3.2.2 统计模型的分析 45-51 3.3 实验结果与分析 51-53 3.3.1 实验设计 51 3.3.2 实验结果 51-53 3.3.3 结果分析 53 3.4 本章小结 53-54 第4章 基于倾向性分析的内容审计系统的设计与实现 54-61 4.1 系统功能概述 54 4.2 总体设计与系统架构 54-56 4.3 功能模块设计与实现 56-59 4.3.1 主控模块 56-57 4.3.2 训练模块 57-58 4.3.3 测试模块 58-59 4.4 系统测试与分析 59-60 4.4.1 试验设计 59 4.4.2 实验结果 59-60 4.4.3 结果分析 60 4.5 本章小结 60-61 结论 61-63 参考文献 63-66 攻读硕士学位期间发表的论文和取得的科研成果 66-67 致谢 67
|
相似论文
- 节奏控制和信息反馈在排球正面上手发球技术教学中的实验研究,G842
- 高校毕业生信息反馈机制研究,G647
- 试论先秦时期否定副词“勿”与“毋”,H141
- 《史记》中心理动词的语法、语义研究,H141;H13
- 基于嵌入式的HTML文本浏览器的设计与实现,TP393.092
- 城市地铁施工的数值模拟与参数反分析,U231.3
- 《近代汉语语法资料汇编·宋代卷》受事主语句研究,H146
- 古今汉语名词动用比较研究,H14
- 唐五代文人词中单音节动词的研究,H141
- 陆士谔《新中国》副词研究,H146
- 高职院校实训室排课系统研究与设计,TP311.52
- 监控量测技术在图云关隧道施工中的应用,U452.13
- 《汉语水平词汇与汉字等级大纲》联合式双音复合动词考察研究,H146
- 汉语“在NP”和“从NP”比较研究,H146
- 汉语“红”色词族研究,H136
- 白语助词研究,H252
- 中文词语情感倾向研究,TP391.1
- 造船质量信息反馈系统的建模与应用,TP311.52
- 大学教育质量保障与提升,G649.2
- 多推理机制及信息反馈的远程故障诊断专家系统的研究,TP277
- 新型P2P僵尸网络的研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|