学位论文 > 优秀研究生学位论文题录展示
用户查询歧义性分析研究
作 者: 郑志诚
导 师: 朱小燕
学 校: 清华大学
专 业: 计算机科学与技术
关键词: 查询歧义 命名实体查询消歧 问题推荐 时间敏感性
分类号: TP391.1
类 型: 博士论文
年 份: 2013年
下 载: 27次
引 用: 0次
阅 读: 论文下载
内容摘要
查询中的歧义是查询分析中需要重点考虑的问题之一。在不同的查询中存在着不同类型的歧义,主要包括以下三种:命名实体查询中实体名的歧义,关键词查询的用户意图歧义,以及查询中时间、地点等隐式因素的歧义。本文针对这些不同的查询歧义性进行深入分析研究,论文主要内容包括:(1)针对命名实体查询消歧问题,首先提出一个半监督的消歧方法,对大规模未标注语料进行自动消歧标注,解决命名实体查询消歧任务中标注语料不足的问题。在设计消歧模型时,引入实体库的一些结构化信息,以提高消歧模型的性能。实验结果表明,实体库的结构化信息大幅度提高了算法的消歧性能。进一步,针对有标注语料的情况,将命名实体查询消歧看作是一个排序问题,提出利用排序学习算法融合消歧特征对实体名的候选命名实体进行排序,从而实现消歧。通过实验对比,验证了排序学习在消歧任务上的优势。除了对命名实体查询进行消歧,在确定其指代命名实体后,进而提出一个利用多篇维基百科文章的方法进行命名实体信息摘要,方便用户快速了解该命名实体。实验结果说明了利用多文档能更准确地衡量出概念对于命名实体的重要度,提高摘要的质量。(2)针对关键词查询用户意图可能存在歧义的问题,提出用户查询意图模型,基于用户输入的关键词查询,推测用户意图,进而为用户推荐合适的问题,帮助用户更清晰地表达自己的查询意图。在用户查询意图模型中,利用从问答社区问题集中统计得到的模板为查询生成候选问题,以覆盖更多的生僻查询。模型对问题的生成过程进行建模,从而得到不同问题的产生概率,在此基础上对候选问题进行排序。实验结果验证了用户查询意图模型在基于关键词推荐问题这个任务上可以取得不错的效果。(3)针对查询中隐式因素的歧义性,本文以时间因素为例进行分析研究。首先,通过综合考虑查询中主题词和上下文对查询时间敏感度的影响,对词的上下文时间敏感度进行优化建模,得到词在不同上下文中的时间敏感度,用于检测时间敏感查询。实验结果表明此方法能有效地检测出时间敏感查询。进一步,根据时间敏感查询对结果时效要求的不同,对查询的时效长度进行分类,并在此基础上设计相应的时间特征,用于改进时间敏感查询的问题检索排序性能。实验结果验证了基于查询时效长度设计的时间特征的有效性。
|
全文目录
摘要 3-4 Abstract 4-8 第1章 引言 8-22 1.1 研究背景 8-9 1.2 相关研究 9-19 1.2.1 命名实体查询歧义性分析 9-14 1.2.2 用户意图分析及查询推荐 14-16 1.2.3 用户查询隐式因素分析 16-19 1.3 本文的工作内容 19-22 第2章 基于半监督学习的命名实体消歧 22-39 2.1 概述 22-24 2.2 半监督消歧算法框架 24-30 2.2.1 产生式模型 25-28 2.2.2 判别式模型 28-30 2.3 实验设置 30-32 2.3.1 实验数据 30-31 2.3.2 实验评价 31-32 2.4 实验 32-37 2.4.1 比较无结构化信息的基础模型 32-34 2.4.2 比较考虑实体名映射关系的模型 34-36 2.4.3 比较考虑类别信息的模型 36-37 2.5 本章小结 37-39 第3章 基于排序学习的命名实体消歧及应用 39-62 3.1 概述 39-41 3.2 基于排序学习的命名实体消歧 41-46 3.2.1 排序学习算法简介 41-43 3.2.2 消歧特征 43-46 3.3 命名实体的信息摘要 46-53 3.3.1 维基百科文章建模 47-50 3.3.2 多维基百科文章摘要算法 50-53 3.4 实验 53-60 3.4.1 命名实体消歧实验 53-57 3.4.2 命名实体摘要实验 57-60 3.5 本章小结 60-62 第4章 基于用户关键词查询的问题推荐 62-79 4.1 概述 62-64 4.2 用户查询意图模型 64-72 4.2.1 模型推理 67-68 4.2.2 模型参数估计 68-69 4.2.3 候选问题生成 69-70 4.2.4 候选问题排序 70-71 4.2.5 补充关键词推荐 71-72 4.3 实验设置 72-74 4.3.1 数据介绍 73 4.3.2 评价指标 73-74 4.4 实验 74-77 4.4.1 问题推荐性能 74-76 4.4.2 补充关键词推荐性能 76-77 4.5 本章小结 77-79 第5章 用户查询中隐式时间因素的分析 79-94 5.1 概述 79-81 5.2 时间敏感查询检测 81-85 5.2.1 词的先验时间敏感度 81-82 5.2.2 词的上下文时间敏感度 82-84 5.2.3 查询的时间敏感度 84-85 5.3 时间敏感查询的问题检索 85-88 5.3.1 查询的时效性要求 85-86 5.3.2 问题排序的特征 86-88 5.4 实验 88-92 5.4.1 时间敏感查询检测实验 88-90 5.4.2 问题检索排序实验 90-92 5.5 本章小结 92-94 第6章 总结与展望 94-96 参考文献 96-103 致谢 103-105 个人简历、在学期间发表的学术论文与研究成果 105-106
|
相似论文
- 基于问答社区的问题相关性及答案排序研究,TP391.3
- 问答社区中的问题与答案推荐机制研究与实现,TP391.1
- 自适应网络信息获取服务技术研究,TP311.52
- 关于网络社区问答知识重用的研究,TP393.09
- 面向问答系统的答案获取方法研究与实现,TP391.3
- 自适应网络信息获取服务技术研究,G250.73
- 用户交互式问答系统中问题推荐机制的研究,TP391.3
- 时间对国际贸易的影响研究,F752
- 针对不对称成本信息和时间敏感客户的契约机制研究,F274
- 基于神经网络的股票价格预测,F830.91
- 供应链超网络均衡模型研究,F274
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 双传感器图像联合目标检测及系统实现研究,TP391.41
- 雾天或背光条件下图像清晰化算法研究及硬件实现,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|