学位论文 > 优秀研究生学位论文题录展示

面向经济普查项目需求的模糊中文地址匹配方法研究

作 者: 于滨
导 师: 左廷英;程昌秀
学 校: 中南大学
专 业: 地图学与地理信息系统
关键词: 地理编码 模糊地址 规则库 地址分词 中文自然语言处理
分类号: P208
类 型: 硕士论文
年 份: 2010年
下 载: 73次
引 用: 2次
阅 读: 论文下载
 

内容摘要


地理(地址)编码技术是GIS中的一项基础性技术,它是将自然语言描述的地址信息,通过地址标准化、地址分词、数据库匹配、空间定位等一系列处理操作,赋予其空间位置信息,并最终定位到电子地图上的过程。随着GIS技术的不断发展与推广,越来越多的行业应用中出现了对于地理编码技术的需求,例如公共卫生、犯罪分析、政治科学、灾害管理、交通预测等领域。国外的地理编码技术已经日趋成熟,逐步迈向了市场化、产业化。但是由于国情的不同,国外的现有技术无法直接应用于我国的地理编码需求。因此,针对中文的地理编码技术有待于我们的进一步研究和完善。本文利用北京市的部分经济普查统计数据进行了相关的地址匹配研究,并最终开发实现了面向经济普查的地理编码工具软件。在研究过程中,本文主要针对地理编码技术中的以下几个方面进行了探索与改进:(1)由于目前地址匹配过程中,对于地址残缺与地址歧义两类模糊地址的匹配成功率与准确率偏低,所以本文提出了一种基于规则的地址分词匹配方法,通过对算法的改进,加入规则树与歧义存储等机制,提高了对于这两类模糊地址的匹配成功率。(2)由于传统地址匹配过程中,地址分词与数据库匹配两个步骤相对独立,导致数据库访问次数过多,系统运行效率低下。为此,本文在所提出的基于规则的地址分词匹配方法中,将两个过程合二为一,边分词边匹配,实现了在最终分词结束的同时获得匹配结果的目的,从而提高了地址匹配的效率。(3)对于目前已有的地址模型进行了部分改进,根据地址记录中存在行政区划部分与街道信息部分的区别,对两部分信息分别进行处理与存储,提高了地址数据的匹配速度。(4)为了减少地址数据采集和地址标准化的成本与工作量,本文有效利用了经济普查项目中的已有数据,通过数据挖掘,建立了标准地址库并完成了地理编码任务。

全文目录


摘要  4-5
ABSTRACT  5-7
目录  7-9
第一章 绪论  9-15
  1.1 地理编码概述  9
  1.2 研究背景  9-10
  1.3 国外研究现状  10-11
  1.4 国内研究现状  11-12
  1.5 研究的目的和意义  12-13
  1.6 本文的组织结构  13-15
第二章 地理编码关键技术  15-20
  2.1 地址标准化  15-16
  2.2 地址分词  16-18
  2.3 数据库匹配  18
  2.4 空间定位  18-19
  2.5 本章小结  19-20
第三章 基于规则的中文地址分词匹配方法  20-31
  3.1 地址模型研究  20-23
  3.2 标准地址库的建立  23-24
  3.3 规则库与规则树的建立  24-25
  3.4 模糊地址分析研究  25-26
  3.5 基于规则的模糊中文地址分词匹配算法  26-30
  3.6 论文所述算法的优势  30
  3.7 本章小结  30-31
第四章 面向经济普查的地理编码系统设计与实现  31-48
  4.1 地理编码系统构架  31-32
  4.2 地理编码系统设计方案  32-36
    4.2.1 实验平台与工具的选择  32
    4.2.2 数据库设计  32-34
    4.2.3 功能模块的划分  34-36
  4.3 地理编码系统的实现  36-47
    4.3.1 系统概述  36-37
    4.3.2 系统要求  37-38
    4.3.3 标准地址库创建  38-39
    4.3.4 标准地址库管理  39-41
    4.3.5 单个地址匹配  41-45
    4.3.6 批量地址匹配  45-47
  4.4 本章小结  47-48
第五章 地理编码实验设计与结果分析  48-54
  5.1 数据来源与分析  48
  5.2 数据的提取  48-50
  5.3 数据的预处理  50-51
  5.4 数据的筛选与样本的选择  51
  5.5 建立标准地址库  51-52
  5.6 实验结果与分析  52-53
  5.7 本章小结  53-54
第六章 总结与展望  54-56
  6.1 总结  54
  6.2 展望  54-56
参考文献  56-61
致谢  61-63
攻读硕士期间发表的论文及参与的项目  63

相似论文

  1. 计算机网络自诊断系统的研究及实现,TP393.06
  2. BBS舆情智能分析系统研究与实现,TP393.094
  3. 地理编码引擎的设计与实现,P208
  4. 基于规则引擎的军事地理信息自定义查询技术研究与实现,P208
  5. 面向造船企业的业务规则库的构建,TP311.52
  6. 测绘困难区域星载干涉SAR基线估计与地理编码技术研究,P225.1
  7. 基于深度协议分析与动态规则集的MSN入侵检测引擎研究与实现,TP393.08
  8. 数据库网络服务行为分析与识别技术研究,TP311.13
  9. 基于主动数据库技术的社保审计动态监测预警研究,TP311.13
  10. 智能移动终端安全问题研究,TN929.53
  11. 基于Chart算法的维吾尔语句法分析系统的设计与实现,TP391.1
  12. 多维包分类算法的研究与仿真,TP301.6
  13. 钢铁企业能源管理系统智能优化调度研究,TF089
  14. 基于本体的高速切削加工工艺专家系统,TG506.1
  15. 教学网络的分布式入侵检测系统的研究与应用,TP393.08
  16. 中文分词算法的研究与实现,TP391.1
  17. 基于地理编码的人口普查技术试验及应用,P208
  18. IPv6校园网入侵检测系统的研究与实现,TP393.08
  19. 基于GIS的徐汇区警用视频监控系统开发,P208
  20. 林业位置服务(LBS)系统构建技术研究,P208

中图分类: > 天文学、地球科学 > 测绘学 > 一般性问题 > 测绘数据库与信息系统
© 2012 www.xueweilunwen.com