学位论文 > 优秀研究生学位论文题录展示

搜索引擎中文分词技术研究

作 者: 任丽芸
导 师: 杨武
学 校: 重庆理工大学
专 业: 计算机应用技术
关键词: 中文分词 词典机制 最大匹配 搜索引擎 未登录词识别
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 203次
引 用: 3次
阅 读: 论文下载
 

内容摘要


中文分词不仅是各种中文信息处理技术中使用最广泛的手段,也是信息检索和搜索引擎必不可少的基础性工作。现有的中文分词方法有很多,它们以字符串匹配、统计模型、理解、路径以及语义等为基础,并辅以分词词典和规则库,能够在一定程度上对中文信息进行切分。但由于汉语本身的特殊性和复杂性,目前的中文分词技术普遍存在歧义词处理和未登录词(新词)识别两个难点。因此,一个好的中文分词方法不仅需要具备高效的分词算法和词典机制,而且要准确识别歧义词和未登录词。论文对搜索引擎的中文分词技术进行研究,具有一定的理论价值和实际意义。论文在分析研究现有中文分词算法、词典机制以及歧义词和未登录词处理策略的基础上,提出了一种改进的中文分词方法,该方法以人工切分和标注好的《人民日报》语料库和专门的人名地名语料库为基础,对中文信息进行处理。一方面,论文针对现有中文分词算法和词典机制存在的不足,提出了基于最大逆向匹配的概率分词算法和基于有限自动机的中文分词词典机制,力求在完成分词功能的同时降低算法的时间和空间复杂度;另一方面,对于目前普遍存在的歧义词和未登录词识别两个难点,论文首先通过最大正向匹配、最大逆向匹配以及基于最大逆向匹配的概率分词算法提取分词碎片,然后结合构词规则和特定的人名地名语料库进行纠错处理,以进一步提高分词准确率。以改进的分词方法为基础,论文设计实现了一个中文分词原型系统,该系统包括提取文本、训练语料库、分词处理、性能测试四个部分。同时,利用人工切分和标注好的《人民日报》语料库对原型系统的分词速度和准确率进行测试,实验表明,系统的切分速度约为1 200字/秒,分词准确率达到了96%以上。论文从分词算法、词典机制、歧义词处理和未登录词识别四个方面分析研究了中文分词技术,并设计实现了一个中文分词原型系统。在设计实现的过程中,论文对分词技术从理论和实验上所做的探索都会对该领域的研究提供一定帮助。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-16
  1.1 研究背景及意义  9-11
  1.2 国内外研究现状  11-14
    1.2.1 分词算法的理论研究  11-12
    1.2.2 现有的中文分词系统  12-14
  1.3 论文的主要工作  14-15
  1.4 论文的组织结构  15-16
2 相关理论和技术研究  16-28
  2.1 常用的中文分词算法  16-22
    2.1.1 基于字符串匹配的中文分词算法  16-19
    2.1.2 基于统计的中文分词算法  19-20
    2.1.3 基于理解的中文分词算法  20-21
    2.1.4 基于路径的中文分词算法  21
    2.1.5 基于语义的中文分词算法  21-22
  2.2 常用的中文分词词典机制  22-26
    2.2.1 基于整词二分的分词词典机制  22-23
    2.2.2 基于TRIE 索引树的分词词典机制  23-24
    2.2.3 基于逐字二分的分词词典机制  24-25
    2.2.4 基于双字哈希的分词词典机制  25-26
  2.3 中文分词技术的难点  26
  2.4 中文分词系统的评价准则  26-27
  2.5 本章小结  27-28
3 中文分词技术的难点  28-36
  3.1 歧义词处理  28-33
    3.1.1 歧义词的分类  28-29
    3.1.2 歧义词的检测  29-31
    3.1.3 歧义词的消解  31-33
    3.1.4 歧义词处理的困难  33
  3.2 未登录词识别  33-35
    3.2.1 未登录词识别的方法  34-35
    3.2.2 未登录词识别的困难  35
  3.3 本章小结  35-36
4 一种改进的中文分词方法  36-48
  4.1 基于最大逆向匹配的概率分词算法  36-39
    4.1.1 词条概率的计算  36-38
    4.1.2 最佳切分方式的选择  38
    4.1.3 算法的实现流程  38-39
  4.2 基于有限自动机的分词词典机制  39-42
    4.2.1 词典机制的组织思想  40-41
    4.2.2 词典机制的逻辑结构  41
    4.2.3 分词词典的存储方式  41-42
  4.3 歧义词的检测与切分  42-45
    4.3.1 交集型歧义词的处理  43
    4.3.2 组合型歧义词的处理  43-45
  4.4 基于语料库的未登录词识别  45-47
    4.4.1 分词碎片的抽取  45
    4.4.2 碎片频率的计算  45-46
    4.4.3 候选新词的筛选  46-47
  4.5 本章小结  47-48
5 中文分词原型系统的设计与实现  48-64
  5.1 原型系统的设计  48-50
    5.1.1 系统的结构设计  48-49
    5.1.2 系统模块及功能  49-50
    5.1.3 数据库的设计  50
  5.2 原型系统的实现  50-55
    5.2.1 系统框架及函数介绍  51-52
    5.2.2 提取文本模块的实现  52-53
    5.2.3 训练语料库模块的实现  53
    5.2.4 分词处理模块的实现  53-54
    5.2.5 性能测试模块的实现  54-55
  5.3 运行结果与分析  55-59
  5.4 性能测试与评价  59-62
    5.4.1 存储空间  60
    5.4.2 切分速度  60-62
    5.4.3 准确率  62
  5.5 本章小结  62-64
6 结论与展望  64-66
  6.1 主要结论  64-65
  6.2 后续研究工作  65-66
致谢  66-67
参考文献  67-70
个人简历、在学期间发表的学术论文及取得的研究成果  70

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  6. 主观题自动评分技术研究,TP391.1
  7. 分布式搜索引擎索引安全及缓存策略研究,TP333
  8. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  9. 中文XML压缩技术研究,TP311.11
  10. 企业邮件监管系统的设计与实现,TP393.098
  11. 教育培训行业互联网营销问题的研究,F49
  12. 搜索引擎侵权行为研究,D923
  13. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  14. 基于Agent元搜索引擎的个性化研究,TP391.3
  15. 论搜索引擎竞价排名的法律规制,D923.43
  16. 搜索引擎悖论解读,G254
  17. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  18. 基于搜索引擎网页排序算法研究,TP391.3
  19. 基于过滤技术的投诉信息智能分析与实现,TP391.1
  20. 基于词典和概率统计的中文分词算法研究,TP391.1
  21. 网络下载侵权分析,D923.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com