学位论文 > 优秀研究生学位论文题录展示

搜索引擎中文分词技术研究

作　者: 任丽芸
导　师: 杨武
学　校: 重庆理工大学
专　业: 计算机应用技术
关键词: 中文分词词典机制最大匹配搜索引擎未登录词识别
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 203次
引　用: 3次
阅　读: 论文下载

内容摘要

中文分词不仅是各种中文信息处理技术中使用最广泛的手段,也是信息检索和搜索引擎必不可少的基础性工作。现有的中文分词方法有很多,它们以字符串匹配、统计模型、理解、路径以及语义等为基础,并辅以分词词典和规则库,能够在一定程度上对中文信息进行切分。但由于汉语本身的特殊性和复杂性,目前的中文分词技术普遍存在歧义词处理和未登录词(新词)识别两个难点。因此,一个好的中文分词方法不仅需要具备高效的分词算法和词典机制,而且要准确识别歧义词和未登录词。论文对搜索引擎的中文分词技术进行研究,具有一定的理论价值和实际意义。论文在分析研究现有中文分词算法、词典机制以及歧义词和未登录词处理策略的基础上,提出了一种改进的中文分词方法,该方法以人工切分和标注好的《人民日报》语料库和专门的人名地名语料库为基础,对中文信息进行处理。一方面,论文针对现有中文分词算法和词典机制存在的不足,提出了基于最大逆向匹配的概率分词算法和基于有限自动机的中文分词词典机制,力求在完成分词功能的同时降低算法的时间和空间复杂度;另一方面,对于目前普遍存在的歧义词和未登录词识别两个难点,论文首先通过最大正向匹配、最大逆向匹配以及基于最大逆向匹配的概率分词算法提取分词碎片,然后结合构词规则和特定的人名地名语料库进行纠错处理,以进一步提高分词准确率。以改进的分词方法为基础,论文设计实现了一个中文分词原型系统,该系统包括提取文本、训练语料库、分词处理、性能测试四个部分。同时,利用人工切分和标注好的《人民日报》语料库对原型系统的分词速度和准确率进行测试,实验表明,系统的切分速度约为1 200字/秒,分词准确率达到了96%以上。论文从分词算法、词典机制、歧义词处理和未登录词识别四个方面分析研究了中文分词技术,并设计实现了一个中文分词原型系统。在设计实现的过程中,论文对分词技术从理论和实验上所做的探索都会对该领域的研究提供一定帮助。

全文目录

摘要  4-5
Abstract  5-9
1 绪论  9-16
  1.1 研究背景及意义  9-11
  1.2 国内外研究现状  11-14
    1.2.1 分词算法的理论研究  11-12
    1.2.2 现有的中文分词系统  12-14
  1.3 论文的主要工作  14-15
  1.4 论文的组织结构  15-16
2 相关理论和技术研究  16-28
  2.1 常用的中文分词算法  16-22
    2.1.1 基于字符串匹配的中文分词算法  16-19
    2.1.2 基于统计的中文分词算法  19-20
    2.1.3 基于理解的中文分词算法  20-21
    2.1.4 基于路径的中文分词算法  21
    2.1.5 基于语义的中文分词算法  21-22
  2.2 常用的中文分词词典机制  22-26
    2.2.1 基于整词二分的分词词典机制  22-23
    2.2.2 基于TRIE 索引树的分词词典机制  23-24
    2.2.3 基于逐字二分的分词词典机制  24-25
    2.2.4 基于双字哈希的分词词典机制  25-26
  2.3 中文分词技术的难点  26
  2.4 中文分词系统的评价准则  26-27
  2.5 本章小结  27-28
3 中文分词技术的难点  28-36
  3.1 歧义词处理  28-33
    3.1.1 歧义词的分类  28-29
    3.1.2 歧义词的检测  29-31
    3.1.3 歧义词的消解  31-33
    3.1.4 歧义词处理的困难  33
  3.2 未登录词识别  33-35
    3.2.1 未登录词识别的方法  34-35
    3.2.2 未登录词识别的困难  35
  3.3 本章小结  35-36
4 一种改进的中文分词方法  36-48
  4.1 基于最大逆向匹配的概率分词算法  36-39
    4.1.1 词条概率的计算  36-38
    4.1.2 最佳切分方式的选择  38
    4.1.3 算法的实现流程  38-39
  4.2 基于有限自动机的分词词典机制  39-42
    4.2.1 词典机制的组织思想  40-41
    4.2.2 词典机制的逻辑结构  41
    4.2.3 分词词典的存储方式  41-42
  4.3 歧义词的检测与切分  42-45
    4.3.1 交集型歧义词的处理  43
    4.3.2 组合型歧义词的处理  43-45
  4.4 基于语料库的未登录词识别  45-47
    4.4.1 分词碎片的抽取  45
    4.4.2 碎片频率的计算  45-46
    4.4.3 候选新词的筛选  46-47
  4.5 本章小结  47-48
5 中文分词原型系统的设计与实现  48-64
  5.1 原型系统的设计  48-50
    5.1.1 系统的结构设计  48-49
    5.1.2 系统模块及功能  49-50
    5.1.3 数据库的设计  50
  5.2 原型系统的实现  50-55
    5.2.1 系统框架及函数介绍  51-52
    5.2.2 提取文本模块的实现  52-53
    5.2.3 训练语料库模块的实现  53
    5.2.4 分词处理模块的实现  53-54
    5.2.5 性能测试模块的实现  54-55
  5.3 运行结果与分析  55-59
  5.4 性能测试与评价  59-62
    5.4.1 存储空间  60
    5.4.2 切分速度  60-62
    5.4.3 准确率  62
  5.5 本章小结  62-64
6 结论与展望  64-66
  6.1 主要结论  64-65
  6.2 后续研究工作  65-66
致谢  66-67
参考文献  67-70
个人简历、在学期间发表的学术论文及取得的研究成果  70

搜索引擎中文分词技术研究

内容摘要

全文目录

相似论文