学位论文 > 优秀研究生学位论文题录展示
基于支持向量机的中文问题分类研究
作 者: 赵冰心
导 师: 张茂元
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 问答系统 中文问题分类 概念升维 支持向量机 模型选择
分类号: TP18
类 型: 硕士论文
年 份: 2009年
下 载: 46次
引 用: 0次
阅 读: 论文下载
内容摘要
问答系统是信息检索的高级形式,其中问题理解模块的问题分类任务能够为后续的信息检索模块缩小搜索范围,并有助于答案抽取模块制定抽取策略,对问答系统整体性能的提高具有重要作用。处在发展初期的中文问答系统尤其需要追求每个阶段的品质,所以中文问题分类作为首要子过程极具研究价值。采取支持向量机的方法对中文问题进行分类比较可行且有效,因为处理问题集得到的特征空间维数较高,支持向量机可以有效解决高维问题;问题向量特征相关性小,支持向量机能够不受特征独立性假设的影响;问题向量特征稀疏,支持向量机具有主动学习能力。此外,如果缺乏用于公测的问题集,支持向量机在自行构建的问题集上仍然可以得到相对最优的结果,具有良好的泛化和推广性。中文问题包含的信息非常少,转换成向量后在高维空间的分类精度很低,因此需要对原始问句中的关键词在概念上进行扩展,一般地,从同义、近义和上下位三个方向扩展能够在尽量不引入噪音的前提下使问题向量的维数升高,从而大幅度提高分类精度。在易分中文问题分类系统上实验显示,对问题特征数目扩大一倍,分类精度可以提高55.263%;对每个类的问题个数增加一倍,分类精度提高35.956%。选取支持向量机参数的过程中发现参数和分类准确率有这样的关系:一、对于同一个数据集,数据区间范围的伸缩不影响分类准确率,罚因子值不变,高斯宽度参数值随区间的伸缩增大或减小;二、数据区间范围不变的情况下,罚因子和高斯宽度参数的值此消彼长,在追求最佳分类精度的取值趋势上是相对的。三、数据集的实例个数不变,罚因子不变;实例中非零属性个数较多时,高斯宽度参数相对较小。
|
全文目录
摘要 4-5 ABSTRACT 5-10 1 绪论 10-18 1.1 课题背景 10-11 1.2 中文问答系统综述 11-14 1.3 中文问题分类概论 14-16 1.4 课题研究内容 16-17 1.5 论文组织结构 17-18 2 支持向量机导论 18-24 2.1 支持向量机的发展 18-19 2.2 统计学习理论 19-20 2.3 支持向量机原理 20-23 2.4 本章小结 23-24 3 基于概念扩展的中文问题表示 24-35 3.1 自然语言处理技术 24-27 3.2 中文问题分类体系 27-28 3.3 特征选择和空间模型 28-30 3.4 基于概念的问题升维 30-32 3.5 中文问题表示过程 32-34 3.6 本章小结 34-35 4 支持向量机分类 35-48 4.1 支持向量机的模型 35-36 4.2 核函数及参数的选择 36-38 4.3 SVM 训练算法 38-39 4.4 多分类模型 39-41 4.5 基于WEKA 的模型选择实验 41-47 4.6 本章小结 47-48 5 中文问题分类系统 48-58 5.1 系统结构设计 48-49 5.2 功能模块实现 49-50 5.3 基于LIBSVM 的分类 50-53 5.4 实验结果与性能分析 53-57 5.5 本章小结 57-58 6 结论与展望 58-60 6.1 全文总结 58-59 6.2 后续工作展望 59-60 致谢 60-61 参考文献 61-65 附录1 攻读硕士学位期间参与课题列表 65 附录2 攻读硕士学位期间研究成果 65
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 贝叶斯方法下二值与多值序次数据模型与异常点的同时识别,O212.1
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 随机网络模型分离,O157.5
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|