学位论文 > 优秀研究生学位论文题录展示
基于机器学习的情景词库构建与实现
作 者: 翟煦
导 师: 黄敏; 李伯基
学 校: 华南理工大学
专 业: 软件工程
关键词: 情景识别 朴素贝叶斯 TF-UIDF 机器学习 分布式
分类号: TP181
类 型: 硕士论文
年 份: 2013年
下 载: 13次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息化的发展,互联网和智能终端的大规模普及,从用户端的可获取信息量越来越多,这些海量的信息的背后蕴含着巨大的实用价值。例如通过获取用户的对话信息,通过这些信息能够识别出对话情景,判断出用户的行为和意图,从而为其提供所需的服务。准确的对话情景识别在优化人机交互和推动智能产品发展方面有着重要的作用。本文在现有理论研究的基础上,采用朴素贝叶斯算法和特征权重实现了可自学习的情景词库,并将其部署在自建的分布式并行计算环境中。朴素贝叶斯算法能够计算出对话隶属于某个对话情景的概率,但是,为了减少复杂的关系计算,提高算法的性能,朴素贝叶斯分类算法采用了独立性的假设,即属性之间相互条件独立,独立性假设忽略了在现实环境中属性之间具有一定关联性的特性,这给算法的分类准确性带来一定的影响。为此,本文提出了改进的TF-UIDF加权算法,对比传统的加权算法,TF-UIDF算法加入了属性在不同情景类别的分布情况,并且对文本训练集偏斜具有很强的适应性。通过TF-UIDF算法对属性在分类中的重要性进行评估,能够在不影响分类性能的情况下,用于帮助朴素贝叶斯分类器过滤掉重要性较低的属性,强化重要属性在分类计算中的作用。此外,为确保情景词库的可持续性使用性,本文在词库中加入了机器自学习的模块,采用预替换和评估系统相结合的方式确保了情景词库每一次学习的有效性,通过持续不断的学习和优化过程使得情景词库的分类效果保持最优。而在分布式环境方面,本文通过对主流的分布式框架进行分析,实现了轻量级的DaSys分布式并行框架,DaSys框架采用了基于计算类型的负载均衡算法和冗余主服务机的方式,使得情景词库具备了较高的性能和容错性。实验结果表明,TF-UIDF算法很好地弥补了朴素贝叶斯算法的不足,其训练集适应能力和分类准确性均高于传统算法;机器学习模块在实际的学习过程中亦表现出较好的训练集优化能力。情景词库在具备了基本的情景分类和学习功能外,还实现了高性能的需求,能够满足高并发请求的处理。
|
全文目录
摘要 5-6 Abstract 6-9 第一章 绪论 9-13 1.1 背景与意义 9-10 1.2 国内外现状 10-11 1.3 论文研究工作 11-13 第二章 相关理论介绍 13-22 2.1 常用的分类算法 13-15 2.2 朴素贝叶斯分类的基本原理 15-17 2.2.1 全概率公式与贝叶斯定理 15-16 2.2.2 朴素贝叶斯分类算法 16-17 2.3 TF-IDF 加权算法 17-18 2.4 机器学习 18-20 2.5 分布式并行计算 20-21 2.6 本章小结 21-22 第三章 算法的改进与实现 22-36 3.1 TF-UIDF 特征权重算法 22-26 3.1.1 传统 TF-IDF 算法的缺点 22-24 3.1.2 引入分布均匀度的 UIDF 公式 24-25 3.1.3 构建平衡数据集的 TF 公式 25-26 3.1.4 改进的 TF-UIDF 权重计算公式 26 3.2 DaSyx 轻量级分布式并行框架 26-35 3.2.1 架构设计 27-30 3.2.2 基于计算类型的负载均衡 30-32 3.2.3 主服务机的实时切换 32-35 3.3 本章小结 35-36 第四章 构建完整的情景词库 36-49 4.1 系统总架构 36-38 4.2 构建情景训练集 38-39 4.3 中文分词与过滤 39-41 4.4 朴素贝叶斯分类模型 41-43 4.5 机器学习系统 43-48 4.5.1 贡献度计算 45-46 4.5.2 评估系统 46-48 4.6 本章小结 48-49 第五章 情景词库测试 49-63 5.1 测试环境 49-50 5.1.1 单机环境 49 5.1.2 分布式环境 49-50 5.2 测试结果与分析 50-62 5.2.1 情景词库的识别效果 50-56 5.2.2 机器学习效果测试 56-58 5.2.3 分布式环境下的情景词库性能测试 58-62 5.3 本章小结 62-63 第六章 总结与展望 63-65 6.1 研究工作总结 63 6.2 对未来工作的展望 63-65 参考文献 65-67 攻读硕士学位期间取得的研究成果 67-68 致谢 68-69 附件 69
|
相似论文
- 英汉命名实体翻译方法研究,TP391.2
- 生物医学缩略语消歧,R-5
- 基于数据分布特征的文本分类研究,TP391.1
- 人类抗原肽载体结合力预测,R392.1
- 李群深层结构学习算法研究,TP181
- 机器学习算法在视频指纹识别中的应用研究,TP391.41
- 蛋白质关系抽取中平面特征和结构化信息的研究,TP181
- 基于李群机器学习算法的智能布线,TN710
- 学习表达式的映射机制研究,TP181
- 军事港口目标分类平台的设计与实现,TP751
- 数据挖掘技术在环境保护综合管理系统中的应用,TP311.13
- 基于多视角的分类器设计与权值优化方法研究,TP18
- DNS服务器DDoS防御方法研究,TP393.08
- 电力网络中的一类抛物型偏微分代数模型解的存在唯一性和渐近行为,O175.26
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于区域高斯特征的人体检测算法,TP391.41
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 基于配体结构的药物靶标预测及细胞色素P450酶代谢底物数据库CYP-Meta的构建,R91
- 监督主题模型的研究与应用,TP391.1
- 基于失真效应的图像质量评价与分类,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|