学位论文 > 优秀研究生学位论文题录展示
基于贝叶斯分类方法的中文问句分类研究
作 者: 李慧
导 师: 邸书灵
学 校: 石家庄铁道学院
专 业: 计算机应用技术
关键词: 问答系统 贝叶斯分类模型 中文问句分类 依存句法分析 增量学习 模糊集 反馈机制 加权贝叶斯分类模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 42次
引 用: 0次
阅 读: 论文下载
内容摘要
问句分类为问句分析的首要任务,其过程描述为:将问句表示为数据特征形式;设计分类器;将分类器的输出作为类别标签。特征提取和分类器的设计为本文的重点和难点。本文主要研究贝叶斯分类方法及改进,并将其应用于中文问答系统的问句分类中。选取贝叶斯分类模型构建分类器,并结合中文问句的特点提出了以下特征提取方法和两个改进分类模型:(1)提取句法分析结果为问句特征句法分析属于浅层语义分析,弥补了问句词汇信息量少的不足。根据句法分析结果提取句子主干、疑问词及其附属成分作为特征项,同时对句中出现的时间词进行合并,未登录词进行命名实体识别,以改进特征向量的优越性。(2)基于模糊反馈机制的增量式半朴素贝叶斯分类模型从增量学习主动选择策略的不确定性出发,选取后验概率接近于1/n为类别数)的样本加入训练集,提出基于模糊反馈机制的增量学习模型。以半朴素贝叶斯模型为基础贝叶斯模型,利用参数的Dirichlet分布特性,选取后验期望估计参数值。根据归一性原则选取隶属度函数,采用试探法确定阈值大小。(3)x2-IDF加权贝叶斯分类模型加权贝叶斯模型的出发点为贝叶斯最大后验假设,对于不同的句子,各个特征项对于问句分类提供的信息不同,结合x2统计量的特点,引入x2-IDF评估函数作为特征项的权重计算式,衡量每个特征项对分类的贡献,计算特征向量属于每个类别的后验概率,更合理地诠释最大后验假设。论文结合哈尔滨工业大学自然语言研究室提供的问题集对上述模型进行实现和测试,并给出实验分析数据和结论以及评价结果。比较实验结果,证明本文提出的改进贝叶斯模型提高了分类器精度。论文最后总结全文,提出下一步研究重点。
|
全文目录
相似论文
- 尾矿库溃坝风险评价与分级技术研究,TV122.4
- 针对教育视频的虚拟学习社区设计与实现,G434
- 面向三网融合的故障管理系统的研究及实现,TP315
- 融合多种信号特征的模拟电路故障诊断研究,TN710
- 对等网络的信任机制研究,TP393.08
- 地铁隧道施工邻近建筑物安全风险研究,U455.1
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于模糊结构元的模糊数直觉模糊集理论及其应用研究,O159
- 迭代布尔相象律方程的几类新解,O159
- 模糊推理的变权综合算法研究,O159
- 合成孔径雷达干扰效果评估方法研究,TN974
- FMECA和FRACAS在无人机动力系统中的应用,V279
- P2P模糊信任模型中的隶属度预测和权重分配研究,TP393.08
- 战术互联网安全分簇算法研究,TP393.08
- Web视频资源的智能发现关键技术研究,TP393.092
- 基于知网的受限域问答系统原型的设计与实现,TP391.1
- 领域知识对领域问答系统答案抽取影响研究,TP391.3
- 基于增量改进贝叶斯领域问句分类研究,TP391.3
- 问答对自动获取的研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- E-Learning系统中基于课程本体的用户兴趣模型挖掘,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|