学位论文 > 优秀研究生学位论文题录展示
基于字词联合解码的中文分词研究
作 者: 佟德琴
导 师: 黄德根
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 跨领域分词 条件随机场 联合解码 上下文变量 语义资源
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 36次
引 用: 0次
阅 读: 论文下载
内容摘要
中文分词在中文信息处理中起着举足轻重的作用,分词的精度直接影响到后而一系列自然语言处理任务的正确性。近年来,中文分词的发展虽然已取得了骄人的成绩,但由于汉语语言自身的特点,仍存在一系列的难题,很多分词系统往往在个别领域切分的较为理想,而在另外一个领域却表现出不尽人意,因此,跨领域分词也被引入到了SIGHAN Bakeoff 2010评测任务中。本文在已有的研究基础上,提出了一种新的基于字和词的条件随机场(CRFs)的联合解码模型,把二者结合在一个统一的中文分词框架下,基于字标注的条件随机场CRFs分词,选择的是一条全局最优的路径做分词结果:在全局最优的路径里,某个局部却不一定是最优的,因此,我们把局部最优结果放到统一的模型框架下,再进行二次选择组合最优的结果,通过利用词图能够充分融合词层面的信息、的特点,使两种方法有效地结合起来。针对跨领域未登录词的特点,提出了一种称为上下文变量(Context Variables)的数据来衡量某个候选词在篇章内的上下文信息;同时,使用语义资源,利用同义词的上下文语境相似的特点,用其同义词的节点代价作为自己的代价,提高了未登录词的召回率。该方法在SIGHAN Bakeoff 2010的中文简体语料上进行了测试,在四个不同领域中,除了文学领域外,F-值均高于相应相应测试的最好成绩,并且,OOV的召回率分别达到了70.7%、84.3%、79.0%和86.2%。实验结果证明,这种方法不仅结合了基于字标注和基于词标注两种方法的优势,而且能将二者的优势影响扩大,进一步地提高了未登录的识别效果。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-15 1.1 研究背景与意义 8-9 1.2 中文分词技术的难点 9-11 1.2.1 分词规范的不确定性 9-10 1.2.2 未登录词识别问题 10 1.2.3 歧义切分问题 10-11 1.2.4 跨领域的中文分词 11 1.3 中文分词主要研究方法 11-13 1.4 研究现状 13 1.5 本文主要的工作 13-15 2 理论基础及统计语言模型 15-25 2.1 统计自然语言处理 15-16 2.2 隐马尔科夫模型(HMM) 16-18 2.2.1 隐马尔科夫原理 16-17 2.2.2 隐马尔科夫模型在中文分词中的应用 17-18 2.2.3 隐马尔科夫模型的局限性 18 2.3 最大熵 18-20 2.3.1 最大熵理论 18-19 2.3.2 最大熵原理 19-20 2.4 条件随机场模型 20-25 2.4.1 无向图模型 20-21 2.4.2 条件随机场的无向图结构及其势函数表示 21-23 2.4.3 CRFs的最大似然估计 23-25 3 基于CRFs的中文分词 25-33 3.1 基于字标注的CRFs中文分词 25-28 3.1.1 标注方法 25-26 3.1.2 特征抽取 26-28 3.2 基于词图的CRFs中文分词 28-31 3.2.1 词图在中文分词中的应用 29-30 3.2.2 特征的选择 30 3.2.3 解码方法 30-31 3.3 使用CRFs进行中文分词的流程 31-33 4 联合字词解码的中文跨领域分词 33-41 4.1 联合字词解码的分词算法 33-34 4.2 长度偏置 34-35 4.3 上下文变量 35-37 4.4 利用语义相似信息提高未登录词的识别率 37-39 4.5 基于字词联合解码的中文跨领域分词流程 39-41 5 实验结果与分析 41-49 5.1 实验数据说明和评价标准 41-42 5.2 跨领域分词实验结果 42-47 5.2.1 长度偏置对分词结果的影响 42-43 5.2.2 实验结果 43-44 5.2.3 与Sighan Bakeoff 2010成果对比 44-45 5.2.4 实验结果分析 45-47 5.3 基于字的CRFs与字词联合解码的结果的比较 47-48 5.4 方法讨论 48-49 结论 49-50 参考文献 50-54 攻读硕士学位期间发表学术论文情况 54-55 致谢 55-56
|
相似论文
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于条件随机场的RNA二级结构预测算法,R346
- 特定领域中文术语抽取,TP391.1
- 中文命名实体识别与歧义消解研究,TP391.1
- 基于信息抽取技术的商业社会网络创建研究,TP391.1
- 基于内容的新闻镜头分类技术研究,TP391.41
- 基于格框架的机器翻译,TP391.2
- 基于DHT的内容服务技术研究,TP393.02
- 基于条件随机场的汉语词义消歧方法研究,TP391.1
- 基于H.264和Turbo码的信源信道联合解码,TN919.8
- 政务信息系统语义互操作研究,TP391.1
- 信源信道联合解码算法研究及其在语音传输中的应用,TN912.3
- P2P环境中基于语义的资源自组织、发现及推荐研究,TP393.09
- 基于条件概率图模型的Deep Web数据抽取与集成研究,TP311.135.4
- 中文命名实体识别的研究,TP391.43
- 中文机构名识别的研究,TP391.4
- 人体运动捕捉数据的检索,TP391.3
- 基于视频的人体运动识别方法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|