学位论文 > 优秀研究生学位论文题录展示
基于词典的中文分词技术研究
作 者: 郭瞳康
导 师: 殷景华
学 校: 哈尔滨理工大学
专 业: 微电子学与固体电子学
关键词: 中文分词 最大匹配方法 分词词典 歧义处理 词频统计
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 189次
引 用: 1次
阅 读: 论文下载
内容摘要
随着现代信息技术的发展,自动分词技术已经广泛应用在信息检索、信息抽取、机器翻译、语音合成等自然语言处理领域,同时结合中文文本的特点,自动分词技术的研究已经成为中文信息处理的一项基础性课题。中文分词技术主要研究将待处理文本利用分词算法切分成词,便于计算机对文本信息进行处理、理解和传递。在实现分词的过程中,主要难点是歧义处理和未登录词识别。本文结合现有相关分词技术理论与实现的方法,通过最大匹配算法与词频统计算法的结合,对中文文本分词技术进行深入研究与实践。本文在传统单一词典基础上,将其分为特征词典和基本词词典两部分,优化分词词典中对于词条的存储结构;采用双字哈希索引结构,将词典中的词按前两个字为索引关键字进行存储,提高匹配查找的速度和准确率;增加对姓名、专属名词、地名和数量词切分准确性,提高分词系统的性能指标。同时,在分词算法上,主要采用正向与反向最大匹配分词结合的双向分词,将双向匹配所产生的歧义字段应用词频信息进行判断,完成对词语间歧义和未登录词的处理。采用C#作为开发工具,在分词结果中,实现对存在严重歧义的短语和段落无明显歧义字段;通过对比实验,分词准确性优于单一使用最大正向匹配的分词算法。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-17 1.1 引言 10 1.2 本文研究的背景及意义 10-11 1.3 分词技术的发展概况及现状 11-13 1.4 分词技术待解决问题 13-16 1.4.1 分词的规范 14 1.4.2 歧义的识别 14-15 1.4.3 未登录词的识别 15-16 1.5 课题来源及主要研究内容 16-17 1.5.1 课题来源 16 1.5.2 主要研究内容 16-17 第2章 中文自动分词技术基础 17-26 2.1 中文自动分词的特点 17-18 2.2 中文分词的基本方法 18-23 2.2.1 基于字符串匹配的分词方法 18-20 2.2.2 基于理解的分词方法 20-21 2.2.3 基于概率的分词方法 21-23 2.3 几种典型中文分词系统 23-25 2.3.1 清华大学SEG 分词系统 23-24 2.3.2 北大计算语言所分词系统 24 2.3.3 复旦分词系统 24 2.3.4 中科院ICTCLAS 分词系统 24-25 2.4 本章小结 25-26 第3章 基于词典的中文分词系统结构 26-32 3.1 分词系统流程 26-27 3.2 待切分文本预处理 27 3.3 正向最大匹配算法流程 27-29 3.4 逆向最大匹配算法流程 29-30 3.5 歧义处理算法流程 30-31 3.6 本章小结 31-32 第4章 基于词典的中文分词算法设计 32-42 4.1 总体设计思想 32 4.2 词典的建立 32-34 4.3 词典的设计 34-36 4.4 待切分文本算法的实现 36-41 4.4.1 预处理算法实现 36-37 4.4.2 最大匹配分词算法实现 37-39 4.4.3 词频信息对歧义的处理 39-41 4.5 本章小结 41-42 第5章 系统分析与评价 42-48 5.1 实验评测标准 42-43 5.2 系统界面 43-44 5.3 系统性能测试 44-46 5.4 系统不足与展望 46-47 5.5 本章小结 47-48 结论 48-49 参考文献 49-52 攻读学位期间发表的学术论文 52-53 致谢 53
|
相似论文
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 企业邮件监管系统的设计与实现,TP393.098
- 基于词典和概率统计的中文分词算法研究,TP391.1
- 基于云计算的海量数据存储技术的研究及应用,TP333
- 基于Berkeley DB的图像信息索引机制的设计与实现,TP391.3
- 《万历野获编》分词理论与实践,H141
- 《水浒传》词频分析,H131
- 郑州电视台中文自动分词系统研究与实现,TP391.1
- 面向企业信息检索的中文分词系统的研究与实现,TP391.1
- 竞争对手网站商业情报挖掘,TP311.13
- 搜索引擎中文分词技术研究,TP391.1
- 基于词频统计的齐夫定律汉语适用性研究,TP391.1
- 基于双字哈希的PAT树词典机制的研究,TP391.1
- 基于个性化搜索的网页特征提取相关技术的研究,TP391.1
- 基于机器学习算法的Web文本挖掘应用研究,TP391.1
- 分词词典的构建,TP391.1
- 社会网络分析在学科热点分析中的实证研究,G350
- 中文分词算法的研究与实现,TP391.1
- 中文垃圾邮件过滤技术研究,TP393.098
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|