学位论文 > 优秀研究生学位论文题录展示
本地搜索领域POI缩略词词典的研究
作 者: 黄鹤
导 师: 朱靖波
学 校: 东北大学
专 业: 计算机应用技术
关键词: 本地搜索 POI信息点 缩略词词典 条件随机场 命名实体识别
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
随着社会的日益信息化,人们越来越强烈地希望能够通过计算机获取到大量的信息,尤其是对生活信息的获取。人们有强烈的愿望通过自然语言语句的查询搜索到和他们的什么密切相关的信息。本地搜索就是一个致力于帮助人们实现对生活信息检索的技术,可能检索到诸如餐饮、娱乐、金融机构、旅游景点、地标建筑、加油站,甚至是停车场的信息。这个技术极大的丰富人们的生活,使人们足不出户就可以获取大量的生活信息。目前的本地搜索技术的主要搜索内容是一个被称作为POI的信息。POI(point of interest)的全称为地理兴趣点,顾名思义,就是令人感兴趣的点。每个不同的POI都分布在地图上不同的坐标点上,而本地搜索的任务就是根据用户输入的检索语句将可能的POI输出出来。为了能够满足用户的需求,就需要各种不同技术手段提取检索的准确率。但是由于存储在数据库中的POI地理兴趣点一般都为该信息点的全名,所以名称一般都比较长,而用户在输入查询语句时有时并不愿意使用全称查询。一般会选取关键字查询,或者会使用该信息点的缩略词查询。对于关键字查询,目前已经有较好的办法实现,但是对于缩略词的查询有时确无能为力。因为大量的名称缩略词和它所指的POI之间存在复杂的关系。一个有效的办法就是将这些存在复杂关系的名称缩略词和它所指代的POI之间所构成缩略词关系构造成缩略词词典。这样在进行搜索时,可以首先判断用户查询是否是一个缩略词表达形式。本文首先讨论POI信息点简介等资源的获取,随后介绍条件随即场的相关内容,并展示通过条件随机场模型来对这些资源进行命名实体识别,最后将这些提取出来的命名实体和POI信息点进行模式匹配,最终从这些资源中提取出缩略词词典的信息。实验表明通过这种方法提取出来的缩略词具有很好的效果,并且具有很好的现实意义。可以通过这样一个提取缩略词的机制扩充缩略词的词库,并最终提高该类词本地搜索的准确率。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 前言 11-17 1.1 研究背景 11-12 1.2 研究现状 12-14 1.2.1 命名实体识别 12-13 1.2.2 缩略词词典的研究 13-14 1.3 本文的主要内容 14-17 第2章 数据资源 17-21 2.1 地理信息数据 17-18 2.2 网络资源的获取 18-20 2.2.1 地理信息网站资源 18-19 2.2.2 网站主页资源 19-20 2.3 资源获取的讨论 20-21 第3章 条件随机场模型 21-35 3.1 图模型 21-25 3.1.1 随机变量的条件独立性 21-22 3.1.2 有向图模型 22-23 3.1.3 无向图模型 23-25 3.2 马尔可夫随机场和Hammersly-Clifford定理 25-30 3.2.1 马尔可夫随机场 25 3.2.2 吉布斯分布 25-27 3.2.3 Hammersly-Clifford定理 27-30 3.3 条件随机场 30-34 3.3.1 条件随机场的原理 30-31 3.3.2 条件随机场的选择 31-32 3.3.3 链式条件随机场 32 3.3.4 链式条件随机场的训练 32-33 3.3.5 链式条件随机场的推理 33 3.3.6 条件随机场的讨论 33-34 3.4 讨论 34-35 第4章 命名实体识别 35-51 4.1 命名实体 35-36 4.2 命名实体识别 36-37 4.3 实验设计 37-48 4.3.1 序列标注 37-39 4.3.2 识别性能 39-42 4.3.3 系统流程 42-43 4.3.4 命名实体的提取 43-48 4.4 讨论 48-51 第5章 缩略词词典的构造 51-61 5.1 缩略词的定义 51-53 5.1.1 一般的缩略词 51-53 5.1.2 地理名缩略词 53 5.2 缩略词的提取 53-56 5.2.1 提取规则 53-54 5.2.2 模式匹配算法 54-56 5.3 实验设计 56-59 5.3.1 实验数据 56-57 5.3.2 实验结果 57-58 5.3.3 实验分析 58-59 5.4 讨论 59-61 第6章 结论 61-63 参考文献 63-67 致谢 67
|
相似论文
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 基于条件随机场的RNA二级结构预测算法,R346
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 中文命名实体识别与歧义消解研究,TP391.1
- 中文命名实体识别及若干相关问题的研究,TP391.41
- 基于信息抽取技术的商业社会网络创建研究,TP391.1
- 基于条件随机场的中文命名实体识别研究,TP391.4
- 基于条件随机场的中文命名实体识别,TP391.43
- 基于条件随机场的汉语短语识别研究,TP391.1
- 基于分类器融合的生物医学命名实体与关系识别研究,TP391.4
- 基于规则与统计的语气词用法自动识别研究,TP391.1
- 产品名实体识别及规范化研究,TP391.1
- 人脸表情识别及其在视频分类与推荐中的应用,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|