学位论文 > 优秀研究生学位论文题录展示
基于带词长和规则判定的中文分词技术的研究
作 者: 王崇
导 师: 刘勇
学 校: 青岛科技大学
专 业: 计算机技术
关键词: 中文分词 中文信息处理 带词长词典 规则判定
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 8次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机软件和硬件以及计算机网络的飞速发展,人们已经进入信息时代。在这个信息社会里,信息的重要性与日俱增,无论是个人、公司、乃至政府都需要获取和掌握大量有用的信息。在这种环境下,中文信息处理技术逐渐成为一项需要重点研究的技术,而其中最为重要的就是中文分词技术。中文与英文不同,中文文本是一个连续的字符串,除了标点符号之外,词与词之间并没有明显的切分标志,也就是语言文字的书写方法没有词界,因而中文信息处理的首要问题是词的切分问题。本文在研究了中文分词各种算法和技术的基础上,提出了一种带词长的哈希词典机制有效的提高了长词的匹配效率,并提出一种基于动词判定算法和优先级判定算法的歧义消解机制,有效地提高了歧义消解的精确性。以下是本文具体的研究内容:(1)研究了中文分词的研究背景和研究意义;中文分词的相关技术以及现有的几种主流的中文分词算法。现有的中文分词算法主要有:基于词典的分词算法,基于统计的分词算法,基于规则的分词算法和基于理解的分词算法等。在主流的分词系统中主要用到的是基于词典的分词算法。(2)研究了现有的几种词典机制:基于整词二分的词典机制、基于TRIE树的分词词典机制、基于逐字二分的分词词典机制和基于哈希的分词词典机制。综合存储空间和查找时间上两方面的考虑,进行了以上几种词典机制的比较,本文采用基于哈希的分词词典机制。针对长词匹配效率不高的问题,本文提出了一种带词长的哈希词典机制。(3)研究了中文分词主要面临的问题:歧义问题。歧义包括:交集型歧义、组合型歧义和真歧义。本文详细介绍了这三种歧义。并介绍了主要的三种歧义采集算法:双向最大扫描法、逐词扫描的最大匹配法、最长词次长词发现算法。本文采用双向最大扫描的歧义采集方法。歧义采集后,本文改进了退一字组合算法,加入了动词判定算法和优先级判定算法来进行歧义的消解,在一定程度上提高了歧义消解的精确性。(4)采用VC++6.0集成开发工具,利用本文所提出的算法设计并实现了中文分词系统,并描述了系统的体系结构和系统中各模块的工作原理。
|
全文目录
摘要 3-4 ABSTRACT 4-6 目录 6-8 1、绪论 8-13 1.1 研究背景和研究意义 8-9 1.2 研究现状 9-10 1.3 本文的主要研究内容 10-11 1.4 本文的组织结构 11-13 2、对中文分词中的相关技术的研究 13-31 2.1 中文分词的主要分词算法 13-22 2.1.1 基于字符串匹配的分词算法 13-17 2.1.2 基于词典的分词算法 17 2.1.3 基于统计的分词算法 17-20 2.1.4 基于规则的分词算法 20-21 2.1.5 基于理解的分词算法 21 2.1.6 基于语义的分词方法 21-22 2.2 对中文分词词典机制的研究 22-28 2.2.1 基于整词二分的中文分词词典机制 22-24 2.2.2 基于TRIE索引树的中文分词词典机制 24-25 2.2.3 基于逐字二分的中文分词词典机制 25-26 2.2.4 基于哈希算法的中文分词词典机制 26-27 2.2.5 四种中文分词词典机制的性能比较 27-28 2.3 中文分词需要解决的关键问题 28-29 2.3.1 分词结果中歧义的识别 28-29 2.3.2 未登录词的识别 29 2.4 中文分词的性能指标 29-30 2.5 本章小结 30-31 3、带词长的中文分词算法 31-38 3.1 现有的哈希词典机制 31-33 3.1.1 基于哈希的中文分词词典机制 31-32 3.1.2 多级哈希词典机制 32-33 3.2 带词长的中文分词算法 33-37 3.3 本章小结 37-38 4、对切分歧义的处理 38-47 4.1 产生歧义的原因 38-39 4.2 切分歧义的分类 39-40 4.3 如何检索交集型歧义 40-43 4.3.1 双向最大匹配检索法 40-41 4.3.2 逐词扫描的最大匹配法 41-42 4.3.3 最长词次长词发现法 42-43 4.4 歧义字段的消解 43-46 4.4.1 概率统计型歧义消解算法 43-44 4.4.2 基于规则的歧义消解算法 44 4.4.3 改进的歧义消解算法 44-46 4.5 本章小结 46-47 5 中文分词系统的设计 47-62 5.1 中文分词系统的设计原则 47-48 5.2 中文分词系统的设计 48-59 5.2.1 预处理模块的实现 50-52 5.2.2 中文分词算法的实现 52-55 5.2.3 歧义消解算法的实现 55-59 5.3 实验分析 59-61 5.4 本章小结 61-62 6. 总结和展望 62-64 参考文献 64-68 致谢 68-69 攻读学位期间发表的学术论文目录 69-70
|
相似论文
- 面向销售服务的自动问答系统的设计与实现,TP311.52
- 全文检索及相关技术研究,TP391.3
- LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 基于观点挖掘的产品可用性建模与评价,F274
- Web数据挖掘技术在网络教育论坛中的应用研究,G434
- 基于语素的汉语词法分析方法研究,TP391.1
- 基于规则与统计的汉语自动分词研究,TP391.1
- 中文文本复制检测技术研究,TP391.1
- 基于拼音标注的中文分词算法研究,TP391.1
- 基于蚁群算法的中文文本聚类研究,TP391.1
- 基于SSH和Lucene垂直搜索引擎研究,TP391.3
- 汉语完全句法树库一致性检验方法研究,TP391.1
- 现代汉语新词提取研究,H08
- 面向中文信息处理的组合式述补结构研究,H146
- 面向中文信息处理的V+N结构句法与语义关系研究,H146
- 近似镜像网页去重方法研究,TP393.092
- 基于个性化搜索的网页特征提取相关技术的研究,TP391.1
- 基于中文分词的图文自动匹配方法研究,P208
- 基于CTCMC欺骗行为特征的抽取方法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|