学位论文 > 优秀研究生学位论文题录展示

基于带词长和规则判定的中文分词技术的研究

作　者: 王崇
导　师: 刘勇
学　校: 青岛科技大学
专　业: 计算机技术
关键词: 中文分词中文信息处理带词长词典规则判定
分类号: TP391.1
类　型: 硕士论文
年　份: 2013年
下　载: 8次
引　用: 0次
阅　读: 论文下载

内容摘要

随着计算机软件和硬件以及计算机网络的飞速发展,人们已经进入信息时代。在这个信息社会里,信息的重要性与日俱增,无论是个人、公司、乃至政府都需要获取和掌握大量有用的信息。在这种环境下,中文信息处理技术逐渐成为一项需要重点研究的技术,而其中最为重要的就是中文分词技术。中文与英文不同,中文文本是一个连续的字符串,除了标点符号之外,词与词之间并没有明显的切分标志,也就是语言文字的书写方法没有词界,因而中文信息处理的首要问题是词的切分问题。本文在研究了中文分词各种算法和技术的基础上,提出了一种带词长的哈希词典机制有效的提高了长词的匹配效率,并提出一种基于动词判定算法和优先级判定算法的歧义消解机制,有效地提高了歧义消解的精确性。以下是本文具体的研究内容：(1)研究了中文分词的研究背景和研究意义；中文分词的相关技术以及现有的几种主流的中文分词算法。现有的中文分词算法主要有：基于词典的分词算法,基于统计的分词算法,基于规则的分词算法和基于理解的分词算法等。在主流的分词系统中主要用到的是基于词典的分词算法。(2)研究了现有的几种词典机制：基于整词二分的词典机制、基于TRIE树的分词词典机制、基于逐字二分的分词词典机制和基于哈希的分词词典机制。综合存储空间和查找时间上两方面的考虑,进行了以上几种词典机制的比较,本文采用基于哈希的分词词典机制。针对长词匹配效率不高的问题,本文提出了一种带词长的哈希词典机制。(3)研究了中文分词主要面临的问题：歧义问题。歧义包括：交集型歧义、组合型歧义和真歧义。本文详细介绍了这三种歧义。并介绍了主要的三种歧义采集算法：双向最大扫描法、逐词扫描的最大匹配法、最长词次长词发现算法。本文采用双向最大扫描的歧义采集方法。歧义采集后,本文改进了退一字组合算法,加入了动词判定算法和优先级判定算法来进行歧义的消解,在一定程度上提高了歧义消解的精确性。(4)采用VC++6.0集成开发工具,利用本文所提出的算法设计并实现了中文分词系统,并描述了系统的体系结构和系统中各模块的工作原理。

全文目录

摘要  3-4
ABSTRACT  4-6
目录  6-8
1、绪论  8-13
  1.1 研究背景和研究意义  8-9
  1.2 研究现状  9-10
  1.3 本文的主要研究内容  10-11
  1.4 本文的组织结构  11-13
2、对中文分词中的相关技术的研究  13-31
  2.1 中文分词的主要分词算法  13-22
    2.1.1 基于字符串匹配的分词算法  13-17
    2.1.2 基于词典的分词算法  17
    2.1.3 基于统计的分词算法  17-20
    2.1.4 基于规则的分词算法  20-21
    2.1.5 基于理解的分词算法  21
    2.1.6 基于语义的分词方法  21-22
  2.2 对中文分词词典机制的研究  22-28
    2.2.1 基于整词二分的中文分词词典机制  22-24
    2.2.2 基于TRIE索引树的中文分词词典机制  24-25
    2.2.3 基于逐字二分的中文分词词典机制  25-26
    2.2.4 基于哈希算法的中文分词词典机制  26-27
    2.2.5 四种中文分词词典机制的性能比较  27-28
  2.3 中文分词需要解决的关键问题  28-29
    2.3.1 分词结果中歧义的识别  28-29
    2.3.2 未登录词的识别  29
  2.4 中文分词的性能指标  29-30
  2.5 本章小结  30-31
3、带词长的中文分词算法  31-38
  3.1 现有的哈希词典机制  31-33
    3.1.1 基于哈希的中文分词词典机制  31-32
    3.1.2 多级哈希词典机制  32-33
  3.2 带词长的中文分词算法  33-37
  3.3 本章小结  37-38
4、对切分歧义的处理  38-47
  4.1 产生歧义的原因  38-39
  4.2 切分歧义的分类  39-40
  4.3 如何检索交集型歧义  40-43
    4.3.1 双向最大匹配检索法  40-41
    4.3.2 逐词扫描的最大匹配法  41-42
    4.3.3 最长词次长词发现法  42-43
  4.4 歧义字段的消解  43-46
    4.4.1 概率统计型歧义消解算法  43-44
    4.4.2 基于规则的歧义消解算法  44
    4.4.3 改进的歧义消解算法  44-46
  4.5 本章小结  46-47
5 中文分词系统的设计  47-62
  5.1 中文分词系统的设计原则  47-48
  5.2 中文分词系统的设计  48-59
    5.2.1 预处理模块的实现  50-52
    5.2.2 中文分词算法的实现  52-55
    5.2.3 歧义消解算法的实现  55-59
  5.3 实验分析  59-61
  5.4 本章小结  61-62
6. 总结和展望  62-64
参考文献  64-68
致谢  68-69
攻读学位期间发表的学术论文目录  69-70

基于带词长和规则判定的中文分词技术的研究

内容摘要

全文目录

相似论文