学位论文 > 优秀研究生学位论文题录展示
基于搜索日志和点击日志的同义词挖掘的研究和实现
作 者: 宋宇轩
导 师: 赵宏;袁岗
学 校: 北京交通大学
专 业: 软件工程
关键词: 用户行为 同义词识别 SimRank 特征提取 GBDT
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 99次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的高速发展,电子商务逐步发展起来。对于电子商务网站的站内搜索引擎而言,都普遍存在效率底下的现象,本文就是在准确理解用户意图的基础上来完成的。本文是基于用户行为的搜索日志和点击日志的同义词挖掘的研究和实现,主要是针对现在互联网领域的近义词、错别词、外来词、新出词等不断增多的特点,来提炼出一个同义词表,用来做同义词的自动识别。本文首先通过模式切分商品标题和基于SimRank思想聚集查询这两种方法获取侯选集合,同时也要用中英文挖掘和中中文挖掘的方法对搜索日志和点击日志提取出一个初始词表,然后再提取特征,本文主要研究了两词的字面特征、标题特征、查询特征和点击特征,最后对初始词里的每对词组计算各个特征的值,然后用这些特征值对机器学习模型进行训练,得到同义词判定的阂值,最后在候选集中筛选同义词,得到一份同义词表。同义词表已经在公司得以应用,反应效果很好。本文分别运用GBDT和SVM两个模型进行同义词判定,实验表明GBDT取得更好的结果,准确率为56.52%,召回率为27.37%。
|
全文目录
致谢 5-6 中文摘要 6-7 ABSTRACT 7-10 1 引言 10-13 1.1 研究背景和课题来源 10 1.2 研究目的和意义 10-12 1.3 研究内容与组织结构 12-13 2 相关技术 13-20 2.1 同义词识别对象和概念 13-15 2.2 同义词自动识别研究的三个阶段 15-16 2.3 国内外在该方向的研究现状及分析 16-17 2.4 已有研究成果的代表方法 17-18 2.5 SVM模型简介 18-19 2.6 GBDT模型简介 19-20 3 同义词自动识别研究路线和方法分类 20-28 3.1 自动识别方法分类 20 3.2 相似度计算方法的详细分类 20-22 3.2.1 从匹配的角度分类 20-21 3.2.2 从所使用的资源分类 21 3.2.3 从所使用的方法分类 21-22 3.3 相似度计算方法的详细介绍 22-25 3.3.1 基于字面相似度算法 22 3.3.2 基于词素 22 3.3.3 基于语义体系 22-23 3.3.4 基于搜索引擎 23 3.3.5 基于统计的汉语词汇间语义相似度 23-24 3.3.6 基于词典释义 24 3.3.7 混合策略、多层特征 24-25 3.4 同义词自动识别的应用需求 25-28 3.4.1 应用场景分析 25 3.4.2 已经使用到的和可以使用的技术 25-26 3.4.3 同义词识别过程中遇到的问题 26 3.4.4 问题扩展 26-28 4 同义词的挖掘的具体实现 28-40 4.1 同义词识别的定义 28-29 4.2 同义诃挖掘方法 29 4.3 候选集合的选取 29-32 4.3.1 并列关系符号切分商标标题 30 4.3.2 基于SimRank思想聚合查询 30-32 4.4 初始词表的生成 32-36 4.4.1 中英同义词挖掘 32-33 4.4.2 中中同义词挖掘 33-36 4.5 特征的选取 36-39 4.6 同义词表的生成 39-40 5 实验结果与分析 40-55 5.1 实验的结果 40-48 5.1.1 获取候选集合的输入和输出数据 40-44 5.1.2 获取初始词表输出数据 44-46 5.1.3 获取同义词表的输入和输出数据 46-48 5.2 实验分析 48-51 5.3 同义词表应用后的展示以及和其他商务网站的对比 51-55 6 同义词识别的问题的总结和展望 55-57 6.1 同义词自动识别存在的问题 55 6.1.1 对同义的理解问题 55 6.1.2 机器的理解能力问题 55 6.2 同义词自动识别研究的应用 55-56 6.2.1 同义词表的自动构建 55-56 6.2.2 同义词的自动发现 56 6.3 总结和展望 56-57 参考文献 57-59 附录A 59-61 作者简历 61-63 学位论文数据集 63
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|