学位论文 > 优秀研究生学位论文题录展示
中文Web文档倾向性自动分类研究
作 者: 胡蓉
导 师: 唐常杰
学 校: 四川大学
专 业: 计算机应用
关键词: 中文分词 最大匹配法(MM) 向量空间模型(VSM) 潜在语义索引(Lsl) 特征选择 支持向量机(SVM) 决策树(DTree) C4.5 k 最近邻分类法(kNN) 中文文本分类 文本倾向性分类
分类号: TP393.09
类 型: 硕士论文
年 份: 2003年
下 载: 324次
引 用: 10次
阅 读: 论文下载
内容摘要
如何在浩若烟海而又纷繁芜杂的文本中最快捷地获取有效信息始终是信息处理的一大目标,也是一大难题。文本自动分类系统,作为信息处理的重要研究方向,旨在根据文本的内容自动判别文本类别。目前,国际上对于英文文本分类的问题研究已经比较成熟,而中文文本分类问题以中文环境和语义为特色,引入了特殊矛盾和特殊困难,成为特别的研究课题。 其中中文文本倾向性分析研究更是一个崭新的、充满挑战的研究领域。为了维护网络安全的健壮性,因此我们提出了实验型中文Web文档倾向性分类鉴别器项目。鉴于以往的鉴别基于关键词的简单匹配和人工处理,效率低下;为此本项目旨在加强中文Web文档鉴别的实时性和高效性。 在研究的过程中,我们系统考察了中文Web文档自动分类的各个环节以及具体的实现技术:从语料库的建立,中文Web文档的分词,索引的选择,权重的设计方案及分词系统SMCW的建立,到特征选择方法的研究讨论,各种分类方法的研究讨论,最后到中文Web文档倾向性分类系统(SCUSCTC SCU Smart Chinese Text Classifier)的结构提出及用Java语言开发实现该系统,并对最后的分类结果及中间分词结果进行了细致的实验和考察。系统功能特色有:1)分类方法智能准确:基于领域和语言学知识结合的方法,使文本分类的精度较以往机械匹配的方法大大提高;2)文本分类高速及时:精巧的算法设计配以高效的实现技术,使分类处理既保质又保量;3)输出格式标准通用:采用标准通用的XML作为系统的输出格式,这不仅方便了信息的交换、再加工,而且有利于实现与不同数据库和应用系统的进一步集成。 最后,本文和本系统的成果表现为:l)研究了现代网络情况下,对于中文W七b文档倾向性分类的方法和技术,并提供了一个可供研究并具有一定实用价值的原型系统;2)提供了相关的论文和开发文档,对于以后的研究有极大的帮助:3)对在网关上利用的中文w七b文档分类器进行了实践性的研究:4)编制了中文Web文档倾向性分类的性能要求及相关参数的测试评定;5)实现了实时性的中文w七b文档倾向性分类,达到了一定的速度要求和精度要求. 在以后的工作中考虑如下问题:1)数据集的标准化;2)分词系统精度的提高,对歧义处理以及未登录词识别的能力的提高:3)进行合理的语义分析:4)利用用户反馈信息动态更新训练集;5)定t分析分类器不同要素对分类系统性能的影响,使用合适的模型来比较和评价分类系统;6)自然语言理解问题,如“引用”问题;7)对于敏感词汇伪装的识别问题。 本文组织如下:第一部分为引言,第二部分描述了文本分类解决的问题并对其性能评估方法和阅值选取原则进行了介绍,第三部分描述了文本的模型表示及其方法和比较,第四部分介绍了特征提取的方法,第五部分探讨了不同的文本分类方法:Nalve Bayes、kNN、决策树以及SVM自动分类系统的关键技术,第六部分是该系统的测试数据和实验结果,第七部分是结束语.
|
全文目录
1 引言 10-14 1.1 相关工作 10-11 1.2 我们的贡献 11-14 2 问题描述 14-18 2.1 系统任务 14-15 2.2 性能指标 15-16 2.3 阈值选取 16-18 3 文本模型--VSM 18-37 3.1 分词 18-22 3.1.1 分词中的关键问题 19-20 3.1.2 分词算法 20-22 3.2 去除停用词 22-23 3.3 SCWDSS简介 23-29 3.4 模型构造 29-37 4 特征选择 37-41 4.1 基于互信息的特征选择方法及其实现 37-39 4.2 潜在语义索引 39-41 5 分类方法 41-61 5.1 Naive Bayes方法 42-43 5.2 kNN最近邻居法 43-44 5.3 决策树方法 44-51 5.3.1 创建决策树(C4.5) 46-50 5.3.2 剪枝决策树 50-51 5.4 SVM及其在文本分类中的应用 51-59 5.4.1 SVM算法简介 51-56 5.4.2 SVM训练算法研究 56-59 5.5 分类方法性能比较 59-61 6 实验、性能分析与讨论 61-69 6.1 实验文本 62-64 6.2 SVM分类性能测试 64-69 7 结束语 69-71 参考文献 71-75 声明 75-76 致谢 76
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 盐酸小檗碱对急性脑梗死患者血清CRP及补体C3、C4水平的影响,R743.3
- 基于数据分布特征的文本分类研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- 基于群体智能的医学图像特征优化算法研究,TP391.41
- 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
- 流形学习的方差最小化准则,TP181
- 掌纹主线特征选择方法及成像系统研究,TP391.41
- 中国民族音乐特征提取与分类技术的研究,J607
- 企业邮件监管系统的设计与实现,TP393.098
- 随机森林特征选择,TP311.13
- 基于SVM-RFE的潜在生物标志物选择算法研究,TP311.13
- 数据挖掘在连锁餐饮业中的研究和应用,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|