学位论文 > 优秀研究生学位论文题录展示

基于字词联合解码的中文分词研究

作 者: 佟德琴
导 师: 黄德根
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 跨领域分词 条件随机场 联合解码 上下文变量 语义资源
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 36次
引 用: 0次
阅 读: 论文下载
 

内容摘要


中文分词在中文信息处理中起着举足轻重的作用,分词的精度直接影响到后而一系列自然语言处理任务的正确性。近年来,中文分词的发展虽然已取得了骄人的成绩,但由于汉语语言自身的特点,仍存在一系列的难题,很多分词系统往往在个别领域切分的较为理想,而在另外一个领域却表现出不尽人意,因此,跨领域分词也被引入到了SIGHAN Bakeoff 2010评测任务中。本文在已有的研究基础上,提出了一种新的基于字和词的条件随机场(CRFs)的联合解码模型,把二者结合在一个统一的中文分词框架下,基于字标注的条件随机场CRFs分词,选择的是一条全局最优的路径做分词结果:在全局最优的路径里,某个局部却不一定是最优的,因此,我们把局部最优结果放到统一的模型框架下,再进行二次选择组合最优的结果,通过利用词图能够充分融合词层面的信息、的特点,使两种方法有效地结合起来。针对跨领域未登录词的特点,提出了一种称为上下文变量(Context Variables)的数据来衡量某个候选词在篇章内的上下文信息;同时,使用语义资源,利用同义词的上下文语境相似的特点,用其同义词的节点代价作为自己的代价,提高了未登录词的召回率。该方法在SIGHAN Bakeoff 2010的中文简体语料上进行了测试,在四个不同领域中,除了文学领域外,F-值均高于相应相应测试的最好成绩,并且,OOV的召回率分别达到了70.7%、84.3%、79.0%和86.2%。实验结果证明,这种方法不仅结合了基于字标注和基于词标注两种方法的优势,而且能将二者的优势影响扩大,进一步地提高了未登录的识别效果。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-15
  1.1 研究背景与意义  8-9
  1.2 中文分词技术的难点  9-11
    1.2.1 分词规范的不确定性  9-10
    1.2.2 未登录词识别问题  10
    1.2.3 歧义切分问题  10-11
    1.2.4 跨领域的中文分词  11
  1.3 中文分词主要研究方法  11-13
  1.4 研究现状  13
  1.5 本文主要的工作  13-15
2 理论基础及统计语言模型  15-25
  2.1 统计自然语言处理  15-16
  2.2 隐马尔科夫模型(HMM)  16-18
    2.2.1 隐马尔科夫原理  16-17
    2.2.2 隐马尔科夫模型在中文分词中的应用  17-18
    2.2.3 隐马尔科夫模型的局限性  18
  2.3 最大熵  18-20
    2.3.1 最大熵理论  18-19
    2.3.2 最大熵原理  19-20
  2.4 条件随机场模型  20-25
    2.4.1 无向图模型  20-21
    2.4.2 条件随机场的无向图结构及其势函数表示  21-23
    2.4.3 CRFs的最大似然估计  23-25
3 基于CRFs的中文分词  25-33
  3.1 基于字标注的CRFs中文分词  25-28
    3.1.1 标注方法  25-26
    3.1.2 特征抽取  26-28
  3.2 基于词图的CRFs中文分词  28-31
    3.2.1 词图在中文分词中的应用  29-30
    3.2.2 特征的选择  30
    3.2.3 解码方法  30-31
  3.3 使用CRFs进行中文分词的流程  31-33
4 联合字词解码的中文跨领域分词  33-41
  4.1 联合字词解码的分词算法  33-34
  4.2 长度偏置  34-35
  4.3 上下文变量  35-37
  4.4 利用语义相似信息提高未登录词的识别率  37-39
  4.5 基于字词联合解码的中文跨领域分词流程  39-41
5 实验结果与分析  41-49
  5.1 实验数据说明和评价标准  41-42
  5.2 跨领域分词实验结果  42-47
    5.2.1 长度偏置对分词结果的影响  42-43
    5.2.2 实验结果  43-44
    5.2.3 与Sighan Bakeoff 2010成果对比  44-45
    5.2.4 实验结果分析  45-47
  5.3 基于字的CRFs与字词联合解码的结果的比较  47-48
  5.4 方法讨论  48-49
结论  49-50
参考文献  50-54
攻读硕士学位期间发表学术论文情况  54-55
致谢  55-56

相似论文

  1. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  2. 基于空间邻域词袋模型的图像标注技术,TP391.41
  3. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  4. 基于条件随机场的RNA二级结构预测算法,R346
  5. 特定领域中文术语抽取,TP391.1
  6. 中文命名实体识别与歧义消解研究,TP391.1
  7. 基于信息抽取技术的商业社会网络创建研究,TP391.1
  8. 基于内容的新闻镜头分类技术研究,TP391.41
  9. 基于格框架的机器翻译,TP391.2
  10. 基于DHT的内容服务技术研究,TP393.02
  11. 基于条件随机场的汉语词义消歧方法研究,TP391.1
  12. 基于H.264和Turbo码的信源信道联合解码,TN919.8
  13. 政务信息系统语义互操作研究,TP391.1
  14. 信源信道联合解码算法研究及其在语音传输中的应用,TN912.3
  15. P2P环境中基于语义的资源自组织、发现及推荐研究,TP393.09
  16. 基于条件概率图模型的Deep Web数据抽取与集成研究,TP311.135.4
  17. 中文命名实体识别的研究,TP391.43
  18. 中文机构名识别的研究,TP391.4
  19. 人体运动捕捉数据的检索,TP391.3
  20. 基于视频的人体运动识别方法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com