学位论文 > 优秀研究生学位论文题录展示

基于带词长和规则判定的中文分词技术的研究

作 者: 王崇
导 师: 刘勇
学 校: 青岛科技大学
专 业: 计算机技术
关键词: 中文分词 中文信息处理 带词长词典 规则判定
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 8次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机软件和硬件以及计算机网络的飞速发展,人们已经进入信息时代。在这个信息社会里,信息的重要性与日俱增,无论是个人、公司、乃至政府都需要获取和掌握大量有用的信息。在这种环境下,中文信息处理技术逐渐成为一项需要重点研究的技术,而其中最为重要的就是中文分词技术。中文与英文不同,中文文本是一个连续的字符串,除了标点符号之外,词与词之间并没有明显的切分标志,也就是语言文字的书写方法没有词界,因而中文信息处理的首要问题是词的切分问题。本文在研究了中文分词各种算法和技术的基础上,提出了一种带词长的哈希词典机制有效的提高了长词的匹配效率,并提出一种基于动词判定算法和优先级判定算法的歧义消解机制,有效地提高了歧义消解的精确性。以下是本文具体的研究内容:(1)研究了中文分词的研究背景和研究意义;中文分词的相关技术以及现有的几种主流的中文分词算法。现有的中文分词算法主要有:基于词典的分词算法,基于统计的分词算法,基于规则的分词算法和基于理解的分词算法等。在主流的分词系统中主要用到的是基于词典的分词算法。(2)研究了现有的几种词典机制:基于整词二分的词典机制、基于TRIE树的分词词典机制、基于逐字二分的分词词典机制和基于哈希的分词词典机制。综合存储空间和查找时间上两方面的考虑,进行了以上几种词典机制的比较,本文采用基于哈希的分词词典机制。针对长词匹配效率不高的问题,本文提出了一种带词长的哈希词典机制。(3)研究了中文分词主要面临的问题:歧义问题。歧义包括:交集型歧义、组合型歧义和真歧义。本文详细介绍了这三种歧义。并介绍了主要的三种歧义采集算法:双向最大扫描法、逐词扫描的最大匹配法、最长词次长词发现算法。本文采用双向最大扫描的歧义采集方法。歧义采集后,本文改进了退一字组合算法,加入了动词判定算法和优先级判定算法来进行歧义的消解,在一定程度上提高了歧义消解的精确性。(4)采用VC++6.0集成开发工具,利用本文所提出的算法设计并实现了中文分词系统,并描述了系统的体系结构和系统中各模块的工作原理。

全文目录


摘要  3-4
ABSTRACT  4-6
目录  6-8
1、绪论  8-13
  1.1 研究背景和研究意义  8-9
  1.2 研究现状  9-10
  1.3 本文的主要研究内容  10-11
  1.4 本文的组织结构  11-13
2、对中文分词中的相关技术的研究  13-31
  2.1 中文分词的主要分词算法  13-22
    2.1.1 基于字符串匹配的分词算法  13-17
    2.1.2 基于词典的分词算法  17
    2.1.3 基于统计的分词算法  17-20
    2.1.4 基于规则的分词算法  20-21
    2.1.5 基于理解的分词算法  21
    2.1.6 基于语义的分词方法  21-22
  2.2 对中文分词词典机制的研究  22-28
    2.2.1 基于整词二分的中文分词词典机制  22-24
    2.2.2 基于TRIE索引树的中文分词词典机制  24-25
    2.2.3 基于逐字二分的中文分词词典机制  25-26
    2.2.4 基于哈希算法的中文分词词典机制  26-27
    2.2.5 四种中文分词词典机制的性能比较  27-28
  2.3 中文分词需要解决的关键问题  28-29
    2.3.1 分词结果中歧义的识别  28-29
    2.3.2 未登录词的识别  29
  2.4 中文分词的性能指标  29-30
  2.5 本章小结  30-31
3、带词长的中文分词算法  31-38
  3.1 现有的哈希词典机制  31-33
    3.1.1 基于哈希的中文分词词典机制  31-32
    3.1.2 多级哈希词典机制  32-33
  3.2 带词长的中文分词算法  33-37
  3.3 本章小结  37-38
4、对切分歧义的处理  38-47
  4.1 产生歧义的原因  38-39
  4.2 切分歧义的分类  39-40
  4.3 如何检索交集型歧义  40-43
    4.3.1 双向最大匹配检索法  40-41
    4.3.2 逐词扫描的最大匹配法  41-42
    4.3.3 最长词次长词发现法  42-43
  4.4 歧义字段的消解  43-46
    4.4.1 概率统计型歧义消解算法  43-44
    4.4.2 基于规则的歧义消解算法  44
    4.4.3 改进的歧义消解算法  44-46
  4.5 本章小结  46-47
5 中文分词系统的设计  47-62
  5.1 中文分词系统的设计原则  47-48
  5.2 中文分词系统的设计  48-59
    5.2.1 预处理模块的实现  50-52
    5.2.2 中文分词算法的实现  52-55
    5.2.3 歧义消解算法的实现  55-59
  5.3 实验分析  59-61
  5.4 本章小结  61-62
6. 总结和展望  62-64
参考文献  64-68
致谢  68-69
攻读学位期间发表的学术论文目录  69-70

相似论文

  1. 面向销售服务的自动问答系统的设计与实现,TP311.52
  2. 全文检索及相关技术研究,TP391.3
  3. LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
  4. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  5. 主观题自动评分技术研究,TP391.1
  6. 基于观点挖掘的产品可用性建模与评价,F274
  7. Web数据挖掘技术在网络教育论坛中的应用研究,G434
  8. 基于语素的汉语词法分析方法研究,TP391.1
  9. 基于规则与统计的汉语自动分词研究,TP391.1
  10. 中文文本复制检测技术研究,TP391.1
  11. 基于拼音标注的中文分词算法研究,TP391.1
  12. 基于蚁群算法的中文文本聚类研究,TP391.1
  13. 基于SSH和Lucene垂直搜索引擎研究,TP391.3
  14. 汉语完全句法树库一致性检验方法研究,TP391.1
  15. 现代汉语新词提取研究,H08
  16. 面向中文信息处理的组合式述补结构研究,H146
  17. 面向中文信息处理的V+N结构句法与语义关系研究,H146
  18. 近似镜像网页去重方法研究,TP393.092
  19. 基于个性化搜索的网页特征提取相关技术的研究,TP391.1
  20. 基于中文分词的图文自动匹配方法研究,P208
  21. 基于CTCMC欺骗行为特征的抽取方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com