学位论文 > 优秀研究生学位论文题录展示

开源中文分词器的比较研究

作 者: 黄翼彪
导 师: 郭强
学 校: 郑州大学
专 业: 情报学
关键词: 分词器 中文分词 语料库 分词速度 未登录词识别
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 50次
引 用: 0次
阅 读: 论文下载
 

内容摘要


中文分词是中文信息处理的基础,随着人们对中文分词技术的不断深入研究,越来越多的中文分词器诞生了,开源为大家的学习和交流带了很多便利,然而问题也随之而来了,当我们有具体的应用需求时,面对这么多免费的开源分词器,究竟该如何选择呢?正是为了解决这个问题,本文从26个开源中文分词器中筛选了8个比较有代表性的作为研究对象,并针对不同的性能指标设计测试方案,进行比较测试,最终根据测试结果对选定的分词器进行比较评价。分词准确率、分词速度、未登录词的识别和资源开销等都是衡量一个分词器优劣的评测标准。为了对这些标准进行测试,论文设计了5个测试。它们分别是分词效果测试、分词准确率测试、人名识别和地名识别测试、分词速度测试和资源开销测试。最后,通过对试验结果的对比分析,对选定的研究对象进行评价,为人们的应用选择提供参考。

全文目录


摘要  4-5
Abstract  5-6
目录  6-9
1 引言  9-17
  1.1 研究背景与意义  9-12
  1.2 国内外研究现状  12-16
    1.2.1 中文分词的理论研究  12-14
    1.2.2 中文分词的应用研究  14-16
  1.3 研究内容与方法  16
  1.4 本文的创新之处  16
  1.5 结构安排  16-17
2 中文分词器的原理与评测标准  17-31
  2.1 中文分词器的原理和工作流程  17-20
  2.2 中文分词器的词典组织结构  20-23
    2.2.1 基于整词二分的分词词典机制  20-21
    2.2.2 基于TRIE索引树的分词词典机制  21-22
    2.2.3 基于逐字二分的分词词典机制  22
    2.2.4 基于双字哈希的分词词典机制  22-23
  2.3 常用中文分词算法  23-27
  2.4 中文分词研究所面临的问题  27-29
    2.4.1 歧义词处理  27-28
    2.4.2 新词识别  28-29
  2.5 中文分词器的评测标准  29-30
  2.6 本章小结  30-31
3 试验方案和试验准备  31-40
  3.1 研究对象的筛选  31-35
  3.2 试验方案与安排  35-40
    3.2.1 文档收集与资料准备  35-38
    3.2.2 试验安排  38
    3.2.3 测试环境介绍  38-40
4 评测试验  40-60
  4.1 测试环境的搭建与分词效果测试  40-48
    4.1.1 分词器的安装与测试环境搭建  40-44
    4.1.2 分词效果测试  44-48
  4.2 准确率测试  48-53
    4.2.1 icwb2-data标准语料的评测方法  48-50
    4.2.2 icwb2-data标准语料评测结果的解读  50-51
    4.2.3 icwb2-data标准语料评测结果分析  51-53
  4.3 单项测试  53-55
    4.3.1 人名识别测试  53-55
    4.3.2 地名识别测试  55
  4.4 分词速度测试  55-57
  4.5 资源消耗测试  57-58
  4.6 本章小结  58-60
5 总结与展望  60-62
参考文献  62-65
附录  65-68
致谢  68-69
个人简历、在校期间发表的学术论文及研究成果  69

相似论文

  1. 基于语料库的商务英语专业翻译教学模式研究,H319
  2. 基于语料库的上海世博会新闻报道的互文性分析,H052
  3. 英汉可比较语料库的构建与应用研究,TP391.1
  4. 《道德经》中名词概念翻译对比研究,H059
  5. 全文检索及相关技术研究,TP391.3
  6. LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
  7. 基于语料库的英语本族语者与中国英语学习者名源动词使用差异的研究,H319
  8. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  9. 新闻网页抽取技术的研究与实现,TP393.092
  10. 中文分词算法在GIS中的应用研究,TP391.3
  11. 基于语料库的学术期刊论文摘要时态的对比研究,H314
  12. 基于N-Gram模型的藏文文本分类技术研究,TP391.1
  13. 中文文本分类方法研究,TP391.1
  14. 基于掌上设备的搜索引擎技术的研究,TP391.3
  15. 基于语料库的英语隐喻习语与其汉译的形象和意义对应关系研究,H315.9
  16. 基于语料库的中国英语学习者和本族语者的语义韵对比研究,H319
  17. Conparat平行语料库平台的功能评价,H08
  18. 基于语料库的中国英语专业学习者和本族语者学术写作中it从句的对比研究,H314
  19. 基于语料库的中国英语专业学生口语中话语标记语So的使用研究,H319
  20. 基于语料库的中国英语学习者表示“确定”的副词的使用情况研究,H319
  21. 基于口语语料库的英语重述标记语的比较研究,H314

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com