学位论文 > 优秀研究生学位论文题录展示
交通术语与标准规范的符合性检测技术研究
作 者: 王茹
导 师: 张绍阳
学 校: 长安大学
专 业: 计算机软件与理论
关键词: 交通术语 语料库 层叠隐Markov模型 HowNet 形式概念
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 16次
引 用: 0次
阅 读: 论文下载
内容摘要
交通术语的应用对于提高信息系统及其数据内容的规范性具有重要的意义。然而,由于汉语本身的特点,文字的不同组合和表述使得同一个术语的名称五花八门,仅仅依赖人工进行一一对应的检查势必会产生巨大的工作量,并且要求检查人员对术语标准熟悉程度也很高。为此,本文提出交通术语与标准规范的符合性检测技术,该技术不仅易于交通术语进行匹配,并且能够根据文字语义自动判断相似的文字表述,从而对不规范的表述进行评价并给出修改建议。文章的主要工作和创新如下:(1)根据交通信息数据元建立了交通术语语料库。丰富了传统的语料库,不仅为交通信息的中文分词提供了数据支持,也为交通信息标准检测系统的建立提供了依据。(2)在分析HowNet的结构和义原描述的基础上建立了交通术语结构库。扩展了HowNet知识库,为交通术语在相似度计算中得到准确结果提供了基础。(3)采用层叠的隐Markov模型,优化了现有的汉语分词方法,进一步减少了系统的开销,由于交通术语语料库的引入改进了分词效率,使得交通文本中的交通术语能准确而完整的切分。(4)提出了形式概念分析的相似度计算方法,对现有的HowNet结构进行了优化,减小了由义原深度不同而产生的误差,通过对比其较HowNet相似度计算方法更为有效。实验结果表明,引入交通术语语料库,并采用层叠的隐Markov模型的分词方法能够提升分词的准确度切分的正确率,正确率由96.55%提升到97.96%。交通术语标准符合性检测系统的准确率达到70%左右。
|
全文目录
摘要 5-6 Abstract 6-11 第一章 绪论 11-19 1.1 课题研究背景与意义 11-12 1.2 国内外发展现状 12-17 1.2.1 交通行业标准化的发展现状 12-13 1.2.2 汉语分词系统研究现状 13-16 1.2.3 相似度计算方法研究现状 16-17 1.2.4 研究现状小结 17 1.3 论文的工作和组织 17-19 1.3.1 本文的主要工作 17-18 1.3.2 本文的组织 18-19 第二章 交通术语与标准规范符合性检测总体设计 19-23 2.1 设计目标 19 2.2 系统总体设计 19-21 2.2.1 系统设计思想 19 2.2.2 系统接口 19-20 2.2.3 系统流程设计 20 2.2.4 系统实现的关键技术 20-21 2.3 本章小结 21-23 第三章 交通术语语料库与结构库的建立 23-33 3.1 术语概念与特性分析 23-24 3.1.1 术语的基本概念 23 3.1.2 交通术语的特性分析 23-24 3.1.3 建立交通术语语料库与结构库的原因 24 3.2 交通术语语料库的加工和建立 24-28 3.2.1 语料库概述与分类 25 3.2.2 基础语料库的加工 25-26 3.2.3 交通术语语料的加工 26-27 3.2.4 建立交通术语语料库 27-28 3.3 基于HowNet的交通术语结构库建立 28-31 3.3.1 HowNet基本概念 28 3.3.2 HowNet结构与义原描述 28-29 3.3.3 交通术语结构库的标记 29-30 3.3.4 建立交通术语结构库 30-31 3.4 本章小结 31-33 第四章 交通文本分词系统研究 33-45 4.1 汉语分词技术实现的困难与依据 33-35 4.1.1 汉语分词技术面临的困难 33-34 4.1.2 实现汉语分词的依据 34-35 4.2 汉语分词方法性能比较 35-39 4.2.1 汉语分词方法的难点 35-36 4.2.2 基于机械的分词方法 36-37 4.2.3 基于理解的分词方法 37 4.2.4 基于统计的分词方法 37-38 4.2.5 三种分词方法的性能比较 38-39 4.3 层叠隐Markov模型 39-43 4.3.1 CHMM的词法分析框架 39-40 4.3.2 基于类的HMM算法 40-41 4.3.3 N-Best消歧策略 41-42 4.3.4 未登录词的HMM识别方法 42 4.3.5 CHMM模型优化效果对比 42-43 4.4 本章小结 43-45 第五章 交通术语相似度计算方法研究 45-53 5.1 词语相似度及其衡量指标 45-46 5.2 HowNet的形式概念分析 46-49 5.2.1 概念与概念格 46-47 5.2.2 形式概念分析 47-49 5.3 术语相似度计算方法研究 49-52 5.3.1 现有HowNet的相似度计算方法 49-50 5.3.2 基于形式概念的相似度计算方法 50-51 5.3.3 性能分析及对比结果 51-52 5.4 本章小结 52-53 第六章 术语标准符合性检测系统 53-57 6.1 交通文本分词检测 53-54 6.2 术语标准符合性检测实验 54-55 6.3 本章小结 55-57 第七章 工作总结与展望 57-59 7.1 工作总结 57-58 7.2 展望 58-59 参考文献 59-63 致谢 63
|
相似论文
- 不完备信息系统的完备化及其上的知识获取,TP311.13
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 基于语料库对TAKE用法的比较研究,H319
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 中国大学生英语作文中SO使用情况的语料库分析,H319
- 基于语料库的中外学术语篇中立场副词对比研究,H314
- 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
- 中外英文学术语篇中词块的结构和功能对比研究,H315
- 现代汉语功能句型及其语料库建设,H146
- 英语学术论文标题的短语学特征研究,H313
- 基于语料库的中美经济语篇批评分析,H052
- 基于物流专业词汇联想测试的心理词库研究,H319
- 基于语料库的英语专业学习者书面语中心理使役动词使用研究,H319
- 中美语言学硕士论文中因果标记语的对比研究,H313
- 中国政府文件中国特色英语词丛研究,H313
- 基于语料库对科技英语次技术词用法的研究,H314
- 基于语料库的英国媒体关于中国制造报道的话语分析,H315
- 中国英语学习者与本族语者认识可能性显性表达研究,H319
- 基于语料库的中国人日本语学习者的汉字词误用情况和误用分析,H36
- 基于可比较语料库双语多词表达式对抽取,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|