学位论文 > 优秀研究生学位论文题录展示
基于Web检索的查询意图分类研究
作 者: 陈杰
导 师: 朱娟
学 校: 华南理工大学
专 业: 计算机应用技术
关键词: 信息检索 查询意图分类 特征提取 机器学习 选择优先性
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 69次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网和电子商务的发展,人们在学习、工作和生活上的方式上发生了重大的变化。同时,信息量急剧增长,并且更新频繁。传统信息检索技术满足了人们的一定需要,但仍然面临查准率和查全率偏低的问题。用户如何在这浩如烟海的信息中快速找到自己想要的信息已经成为互联网技术的一个非常重要的研究课题。查询的意图分析作为解决“信息过载”和“资源迷向”问题的一种有效途径,已成为在现代搜索系统领域的一个研究热点。本文着重从分类的角度对查询意图预测进行研究。本文在系统分析研究当前国内外基于查询意图分类相关文献的基础上,对查询意图分类的特点、查询表示模型及分类算法进行了深入的讨论,通过对具体的电子商务搜索引擎进行的调查研究和统计分析,并根据搜索系统的需求,综合几个维度对查询意图进行分类,提出了一套基于查询意图的分类体系,以及该体系的系统架构和各个模块的功能需求;然后在分类体系建立的基础上,提出了本文的查询自动分类框架,该框架利用精确匹配,机器学习,计算机语言学等方法的优点,将各种算法按照某种策略进行综合。最后,本文通过实验数据表明,所提出的方法在大规模的数据集上性能非常高,具有很高的准确率和召回率。
|
全文目录
摘要 5-6 Abstract 6-9 第一章 引言 9-15 1.1 研究背景 9-10 1.2 研究目的和意义 10-11 1.3 研究现状 11-14 1.3.1 查询分类体系 11 1.3.2 查询特征的提取 11-12 1.3.3 查询分类算法 12-14 1.4 本课题的研究内容及论文的组织 14-15 第二章 查询分类及其常用算法 15-25 2.1 查询分类的定义 15 2.2 查询分类任务的特点 15-17 2.3 数据集的构造 17-18 2.4 查询表示模型 18-20 2.4.1 查询特征 18-19 2.4.2 查询表示 19 2.4.3 特征选择方法 19-20 2.5 分类方法 20-23 2.5.1 基于统计的方法 20-22 2.5.2 基于规则的方法 22-23 2.6 评价方法 23-24 2.7 本章小结 24-25 第三章 查询日志分析和分类体系 25-36 3.1 常用分类体系 25-26 3.2 查询日志的分析 26-30 3.3 本文分类体系 30-32 3.4 系统架构 32-35 3.4.1 前端 33 3.4.2 线上查询处理 33-34 3.4.3 搜索引擎 34-35 3.4.4 日志存储 35 3.4.5 统计分析和机器学习 35 3.5 本章小结 35-36 第四章 查询意图的自动分类框架 36-45 4.1 精确匹配 36 4.2 N-GRAM匹配 36-37 4.3 监督机器学习 37-39 4.3.1 数据预处理 37 4.3.2 SVM分类 37-39 4.4 选择优先性 39-42 4.4.1 选择优先性(SP)的定义 39-40 4.4.2 查询的选择优先性分类 40-42 4.5 组合分类算法 42-43 4.6 本章小结 43-45 第五章 系统设计与测试 45-50 5.1 系统实验环境 45 5.1.1 数据集 45 5.1.2 开发环境 45 5.2 系统性能评价方法 45-46 5.3 系统结果与分析 46-49 5.3.1 组合算法实验 46-48 5.3.2 召回率和准确率的平衡 48-49 5.4 本章小结 49-50 总结与展望 50-52 参考文献 52-55 攻读硕士学位期间取得的研究成果 55-56 致谢 56
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 面向海量邮件的检索系统研究与实现,TP393.098
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|